个人注:以下使用gemini翻译 20250916

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第5章 分类

数据科学家经常需要为商业问题提供自动化决策。一封电子邮件是钓鱼邮件吗?一个客户是否可能流失?一个网络用户是否可能点击广告?这些都是分类问题,一种监督学习形式。我们首先在已知结果的数据上训练一个模型,然后将该模型应用于结果未知的数据。分类也许是预测最重要的形式:其目标是预测一条记录是1还是0(例如,钓鱼/非钓鱼、点击/不点击、流失/不流失),或者在某些情况下,预测它属于几个类别中的一个(例如,Gmail 将你的收件箱过滤为“主要”、“社交”、“推广”或“论坛”)。

很多时候,我们需要的不仅仅是一个简单的二元分类,我们还想知道一个案例属于某个类别的预测概率。大多数算法都可以返回一个属于目标类别的概率分数(probability score)(倾向性)(propensity),而不仅仅是简单地分配一个二元分类。事实上,对于逻辑回归,R 的默认输出是对数几率(log-odds)尺度,这必须被转换为倾向性。在 Python 的 scikit-learn 中,逻辑回归与大多数分类方法一样,提供了两种预测方法:predict(返回类别)和 predict_proba(返回每个类别的概率)。然后,可以使用一个滑动截止点( sliding cutoff)将倾向性分数转换为决策。一般方法如下:

  1. 设定一个截止概率:为目标类别设定一个截止概率,如果记录的概率高于这个截止点,我们就认为它属于该类别。
  2. 估算概率:使用任何模型估算一条记录属于目标类别的概率。
  3. 做出决策:如果这个概率高于截止概率,则将新记录分配给目标类别。

截止点越高,被预测为1的记录就越少;截止点越低,被预测为1的记录就越多。

本章将介绍几种用于分类和估算倾向性的关键技术;下一章将描述既可用于分类也可用于数值预测的其他方法。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 4 章 回归与预测

在统计学中,也许最常见的目标就是回答这样的问题:“变量 X(或者更常见地,X₁, …, Xₚ)是否与变量 Y 有关联?如果有,这种关系是什么,我们能否利用它来预测 Y?”

在预测领域——特别是基于其他“预测变量”的值来预测一个结果(目标)变量——统计学与数据科学的联系最为紧密。这一过程是在结果已知的数据上训练模型,以便随后将其应用于结果未知的数据,称为监督学习。数据科学与统计学的另一个重要交叉领域是异常检测:最初用于数据分析和改进回归模型的回归诊断方法,也可用来检测异常记录。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 3 章 统计实验与显著性检验

实验设计是统计实践的基石,在几乎所有研究领域都有应用。其目标是设计实验以确认或拒绝某个假设。数据科学家往往需要持续进行实验,尤其是关于用户界面和产品营销方面的实验。本章回顾了传统实验设计,并讨论了数据科学中常见的一些挑战;还介绍了一些统计推断中经常被引用的概念,并解释了它们的含义及其与数据科学的相关性(或不相关性)。

F3.1

当你看到统计显著性、t 检验或 p 值等术语时,通常是在经典统计推断“流水线”的上下文中(见图 3-1)。这个过程从一个假设开始(例如“药物 A 优于现有标准药物”或“价格 A 比现有价格 B 更有利可图”)。然后设计实验(可能是 A/B 测试)以检验这个假设——设计得尽可能能够得出结论性结果。接着收集并分析数据,然后得出结论。术语“推断”体现了这样一种意图:将涉及有限数据集的实验结果,应用到更大的过程或总体上。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 2 章 数据与抽样分布

人们常见的一个误解是,大数据时代意味着不再需要抽样。事实上,数据在质量和相关性上呈现爆炸式增长,反而强化了抽样作为高效处理各种数据并最小化偏差的工具的重要性。即使在大数据项目中,预测模型通常也是用样本开发和试运行的。样本还用于各种测试(例如,比较不同网页设计对点击率的影响)。

F2.1

图 2-1 展示了支撑本章所讨论概念——数据与抽样分布——的示意图。左侧表示总体,在统计学中假定总体遵循某个潜在但未知的分布。我们唯一能获取的是右侧所示的样本数据及其经验分布。要从左侧到达右侧,需要一个抽样过程(由箭头表示)。传统统计学非常注重左侧,依赖于对总体作出强假设的理论。现代统计学则更多地转向右侧,不再需要这些假设。

总体而言,数据科学家不必担心左侧的理论性质,而应关注抽样过程和手头的数据。不过也有一些显著例外。有时数据源自可以建模的物理过程。最简单的例子是掷硬币:它服从二项分布。任何现实中的二项情境(购买或不购买、欺诈或非欺诈、点击或不点击)都可以有效地用一枚硬币来建模(当然,硬币正面出现的概率可调整)。在这些情况下,我们可以通过理解总体获得更多洞见。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

前言

本书旨在帮助对 R 和/或 Python 编程语言有一定熟悉度、并对统计学有过一些前期(可能零星或短暂的)接触的数据科学家。两位作者从统计学领域进入数据科学世界,对统计学能为数据科学这门艺术所做的贡献心怀感激。与此同时,我们深知传统统计学教学的局限性:统计学作为一门学科已有一个半世纪的历史,大多数统计学教科书和课程都承载着巨轮般的动量和惯性。本书中的所有方法都与统计学这门学科有着某种联系——无论是历史上的还是方法论上的。那些主要从计算机科学演变而来的方法,比如神经网络,则不包括在内。

本书的两个目标是:

  • 以易于消化、导航和参考的形式,列出与数据科学相关的关键统计概念
  • 从数据科学的角度解释哪些概念是重要且有用的,哪些则不那么重要,以及原因何在
阅读全文 »

ChatGPT、Gemini等大语言模型(LLM)是大脑,但就如同人一样,除了大脑之外,还需要相应的手脚去和外部世界交互,而Agent(智能体)至于LLM也是如此。

本书的全名是《Agentic Design Patterns: A Hands-On Guide to Building Intelligent Systems》,本读书笔记使用的是GitHub的翻译资料。

以下是读书的一些摘要。

  • 使人类能将更多精力投入于构思和批判性分析。

  • Transformers(变换器):变换器是现代大语言模型的基础神经网络架构。其核心创 新是自注意力机制,能高效处理长文本序列并捕捉词语间复杂关系。

  • Google Gems 使用 Google AI“Gems”是 Gemini 架构下的用户可配置特性,每个 Gem 是专用 AI 实例, 针对特定任务定制。用户通过指令集定义 Gem 用途、响应风格和知识领域,模型在整 个会话中始终遵循这些指令。 可创建专用智能体,如仅引用特定库的代码解释器、只生成摘要的分析助手、遵循特定 风格的翻译器等。Gem 为 AI 建立持久、任务专用上下文,避免重复设定,提高效率和 一致性,实现细粒度、持久化用户指令。

阅读全文 »

Chapter 21: Exploration and Discovery | 第二十一章:探索与发现

This chapter explores patterns that enable intelligent agents to actively seek out novel information, uncover new possibilities, and identify unknown unknowns within their operational environment. Exploration and discovery differ from reactive behaviors or optimization within a predefined solution space. Instead, they focus on agents proactively venturing into unfamiliar territories, experimenting with new approaches, and generating new knowledge or understanding. This pattern is crucial for agents operating in open-ended, complex, or rapidly evolving domains where static knowledge or pre-programmed solutions are insufficient. It emphasizes the agent's capacity to expand its understanding and capabilities.

阅读全文 »

Chapter 20: Prioritization | 第二十章:优先级排序

In complex, dynamic environments, Agents frequently encounter numerous potential actions, conflicting goals, and limited resources. Without a defined process for determining the subsequent action, the agents may experience reduced efficiency, operational delays, or failures to achieve key objectives. The prioritization pattern addresses this issue by enabling agents to assess and rank tasks, objectives, or actions based on their significance, urgency, dependencies, and established criteria. This ensures the agents concentrate efforts on the most critical tasks, resulting in enhanced effectiveness and goal alignment.

阅读全文 »

Chapter 19: Evaluation and Monitoring | 第 19 章:评估与监控

This chapter examines methodologies that allow intelligent agents to systematically assess their performance, monitor progress toward goals, and detect operational anomalies. While Chapter 11 outlines goal setting and monitoring, and Chapter 17 addresses Reasoning mechanisms, this chapter focuses on the continuous, often external, measurement of an agent's effectiveness, efficiency, and compliance with requirements. This includes defining metrics, establishing feedback loops, and implementing reporting systems to ensure agent performance aligns with expectations in operational environments (see Fig.1)

阅读全文 »

Chapter 18: Guardrails/Safety Patterns | 第十八章:护栏/安全模式

Guardrails, also referred to as safety patterns, are crucial mechanisms that ensure intelligent agents operate safely, ethically, and as intended, particularly as these agents become more autonomous and integrated into critical systems. They serve as a protective layer, guiding the agent's behavior and output to prevent harmful, biased, irrelevant, or otherwise undesirable responses. These guardrails can be implemented at various stages, including Input Validation/Sanitization to filter malicious content, Output Filtering/Post-processing to analyze generated responses for toxicity or bias, Behavioral Constraints (Prompt-level) through direct instructions, Tool Use Restrictions to limit agent capabilities, External Moderation APIs for content moderation, and Human Oversight/Intervention via "Human-in-the-Loop" mechanisms.

阅读全文 »
0%