第十四章:无监督学习 ; 第十五章:随机森林; 第十六章:集成学习; 第十七章:无向图模型; 第十八章: 高维问题。

第十四章 无监督学习

监督学习中,有一个明确的成功或不成功的量度,因此可用于判断特定情况下的充分性 (adequacy),并比较不同方法在各种情况下的有效性 (effectiveness).成功的损失直接用在联合分布 \(\Pr(X,Y)\) 上的期望损失来衡量.这个可以用各种方式来衡量,包括交叉验证.在非监督学习中,没有这些直接衡量成功的量度.从大部分非监督学习的算法的输出中评估推断的有效性是很难确定的.必须诉诸于启发式变量 (heuristic arguments),在监督学习也经常使用,这不仅可以激励 (motivating) 算法,而且为了评价结果的质量.因为有效性是主观问题,不能直接加以证实,这种不舒服 (unconfortable) 的情形导致提出的方法激增。

阅读全文 »

第十一章:神经网络; 第十二章:支持向量机与灵活判别方法; 第十三章:原型方法与最近邻算法。

第十一章 神经网络

这章中我们描述一类学习方法,它是基于在不同的领域(统计和人工智能)中独立发展起来但本质上相同的模型.中心思想是提取输入的线性组合作为导出特征 (derived features),然后将目标看成特征的非线性函数进行建模.这是一个很有效的学习方法,在许多领域都有广泛应用.我们首先讨论投影寻踪模型 (projection pursuit model),这是在半参统计和光滑化领域中发展出来的.本章的剩余部分集中讨论神经网络模型.

阅读全文 »

第八章:模型推断与平均化; 第九章:加性模型、树模型及相关方法; 第十章:提升方法与加性树模型。

第八章 模型推断与平均化

本书的大部分章节中,对于回归而言,模型的拟合(学习)通过最小化平方和实现;或对于分类而言,通过最小化交叉熵实现.事实上,这两种最小化都是用极大似然来拟合的实例

阅读全文 »

第五章:基函数扩展与正则化; 第六章:核平滑方法; 第七章:模型评估与选择。

第五章 基函数扩展与正则化

  • 据说三次样条是人眼看不出结点不连续的最低阶样条.很少有更好的理由去选择更高次的样条,除非对光滑的微分感兴趣.
  • 固定结点的样条也称作 回归样条 (regression splines).我们需要选择样条的阶数,结点的个数以及它们的位置.一种简单方式是用基函数或自由度来参量化样条族,并用观测 \(x_i\) 来确定结点的位置.
  • 自然三次样条 (natural cubic spline) 添加额外的限制,具体地,令边界结点之外的函数是线性的.
  • 高维特征的预处理是非常普遍的而且对于改善学习算法的效果是很有效的。
阅读全文 »

第三章:线性回归方法; 第四章:线性分类方法。

第三章 线性回归方法

总结:

  • 对于任意一个有限维的矩阵(实数或复数矩阵),它的行秩 = 列秩。这个值也被称为矩阵的秩(rank);
  • 标准化因数或者 Z-分数,\(z_j\) 分布为 \(t_{N-p-1}\)(自由度为 \(N-p-1\)\(t\) 分布);
  • \(t\) 分布和标准正态分布在尾概率之间的差异随着样本规模增大可以忽略;
  • \(F\) 统计量衡量了在大模型中每个增加的系数对残差平方和的改变;
  • \(N\) 足够大时,\(F_{p_1-p_0,N-p_1-1}\) 近似 \(\chi^2_{p_1-p_0}\)
阅读全文 »

英文原书《The Elements of Statistical Learning》 (2nd Edition),简称ESL。

“统计学的那些事” 的一段话,清楚的道出了自己同样的心声,“基础”那两个字也曾让自己怀疑人生。

文章看得差不多了,就反复看他们的那本书“The Elements of Statistical learning”(以下简称 ESL)。说实话,不容易看明白,也没有人指导,我只好把文章和书一起反复看,就这样来来回回折腾。比如为看懂 Efron 的 “ Least angle regression ” , 我一个人前前后后折腾了一年时间(个人资质太差)。当时国内还有人翻译了这本书(2006 年),把名字翻译为“统计学习基础”。我的神啦,这也叫“基础”!还要不要人学啊!难道绝世武功真的要练三五十年?其实正确的翻译应该叫“精要”。在我看来,这本书所记载的是绝世武功的要义,强调的是整体的理解,联系和把握,绝世武功的细节在他们的文章里。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第7章 无监督学习

Unsupervised Learning

无监督学习这个术语指的是在没有标注数据(即已知感兴趣结果的数据)的情况下,从数据中提取意义的统计方法。在第四章到第六章中,目标是构建一个模型(一套规则),用一组预测变量来预测一个响应变量。这就是监督学习。与此相反,无监督学习也构建数据的模型,但它不区分响应变量和预测变量

无监督学习可以用于实现不同的目标。在某些情况下,当没有带标签的响应变量时,它可用于创建预测规则。例如,聚类方法可以用于识别有意义的数据组。我们可以使用用户在网站上的点击和人口统计数据,将不同类型的用户分组。然后,网站可以根据这些不同类型进行个性化

在另一些情况下,目标可能是将数据的维度降至一个更易于管理的变量集。然后,这个缩减后的集合可以作为输入用于预测模型,比如回归或分类。例如,我们可能有成千上万个传感器来监测一个工业过程。通过将数据简化为一个更小的特征集,我们也许能够构建一个比包含数千个传感器数据流更强大、更可解释的过程故障预测模型

最后,无监督学习可以被视为探索性数据分析(参见第一章)的延伸,适用于您面对大量变量和记录的情况。其目的是深入了解一组数据以及不同变量之间的相互关系。无监督技术让您能够筛选和分析这些变量,并发现其中的关系。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第6章 统计机器学习

Statistical Machine Learning

统计学在近期发展中,致力于开发更强大、更自动化的预测建模技术,涵盖了回归分类。这些方法与上一章讨论的方法一样,都是有监督学习——它们通过在已知结果的数据上进行训练,来学习如何预测新数据的结果。它们属于统计机器学习的范畴,与经典统计方法不同之处在于,它们是数据驱动的,并且不试图对数据强加线性的或其他整体结构。例如,K-最近邻(K-Nearest Neighbors)方法非常简单:根据相似记录的分类方式来对一条记录进行分类。最成功和应用最广泛的技术是基于集成学习(ensemble learning)并应用于决策树(decision trees.)的方法。集成学习的基本思想是使用多个模型来形成预测,而不是仅仅使用一个单一模型。决策树是一种灵活且自动化的技术,用于学习预测变量和结果变量之间关系的规则。事实证明,将集成学习与决策树相结合,可以产生一些性能最佳的现成预测建模技术。

许多统计机器学习技术的发展,可以追溯到加州大学伯克利分校的统计学家 Leo Breiman(参见图6-1)和斯坦福大学的 Jerry Friedman。 他们的工作,以及伯克利和斯坦福其他研究人员的工作,始于1984年对树模型的开发。随后在20世纪90年代开发的装袋法(bagging)提升法(boosting)等集成方法,奠定了统计机器学习的基础。

阅读全文 »

个人注:以下使用gemini翻译 20250916

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第5章 分类

数据科学家经常需要为商业问题提供自动化决策。一封电子邮件是钓鱼邮件吗?一个客户是否可能流失?一个网络用户是否可能点击广告?这些都是分类问题,一种监督学习形式。我们首先在已知结果的数据上训练一个模型,然后将该模型应用于结果未知的数据。分类也许是预测最重要的形式:其目标是预测一条记录是1还是0(例如,钓鱼/非钓鱼、点击/不点击、流失/不流失),或者在某些情况下,预测它属于几个类别中的一个(例如,Gmail 将你的收件箱过滤为“主要”、“社交”、“推广”或“论坛”)。

很多时候,我们需要的不仅仅是一个简单的二元分类,我们还想知道一个案例属于某个类别的预测概率。大多数算法都可以返回一个属于目标类别的概率分数(probability score)(倾向性)(propensity),而不仅仅是简单地分配一个二元分类。事实上,对于逻辑回归,R 的默认输出是对数几率(log-odds)尺度,这必须被转换为倾向性。在 Python 的 scikit-learn 中,逻辑回归与大多数分类方法一样,提供了两种预测方法:predict(返回类别)和 predict_proba(返回每个类别的概率)。然后,可以使用一个滑动截止点( sliding cutoff)将倾向性分数转换为决策。一般方法如下:

  1. 设定一个截止概率:为目标类别设定一个截止概率,如果记录的概率高于这个截止点,我们就认为它属于该类别。
  2. 估算概率:使用任何模型估算一条记录属于目标类别的概率。
  3. 做出决策:如果这个概率高于截止概率,则将新记录分配给目标类别。

截止点越高,被预测为1的记录就越少;截止点越低,被预测为1的记录就越多。

本章将介绍几种用于分类和估算倾向性的关键技术;下一章将描述既可用于分类也可用于数值预测的其他方法。

阅读全文 »

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

第 4 章 回归与预测

在统计学中,也许最常见的目标就是回答这样的问题:“变量 X(或者更常见地,X₁, …, Xₚ)是否与变量 Y 有关联?如果有,这种关系是什么,我们能否利用它来预测 Y?”

在预测领域——特别是基于其他“预测变量”的值来预测一个结果(目标)变量——统计学与数据科学的联系最为紧密。这一过程是在结果已知的数据上训练模型,以便随后将其应用于结果未知的数据,称为监督学习。数据科学与统计学的另一个重要交叉领域是异常检测:最初用于数据分析和改进回归模型的回归诊断方法,也可用来检测异常记录。

阅读全文 »
0%