《机器学习的数学基础》(2/7)
2、线性代数
Linear Algebra
在形式化一些直观概念时,常见的方法是构造一组对象(符号)和一些操作这些对象的规则。 这就是所谓的代数(algebra)。线性代数是研究向量以及使用某些确定的规则来操作向量的 一门学科。 我们许多人从学校里知道的向量被称为“几何向量”,通常用上方带一个小箭头的字母表示。
向量是特殊的对象,将它们相加并乘以标量产生的是另一个相同类型的对象。从抽象的数学来看,任何满足这两个性质的物体都可以被认为是向量。
Linear Algebra
在形式化一些直观概念时,常见的方法是构造一组对象(符号)和一些操作这些对象的规则。 这就是所谓的代数(algebra)。线性代数是研究向量以及使用某些确定的规则来操作向量的 一门学科。 我们许多人从学校里知道的向量被称为“几何向量”,通常用上方带一个小箭头的字母表示。
向量是特殊的对象,将它们相加并乘以标量产生的是另一个相同类型的对象。从抽象的数学来看,任何满足这两个性质的物体都可以被认为是向量。
英文原版《Mathematics for Machine Learning》,在过去大半年的时间里断断续续地坚持读完了。只能说,数学书永远是最耗费时间和脑力的。如今终于抽出空来,把阅读中的笔记整理出来,并按知识领域分成七篇文章。
数学是这个世界上最精确的语言!
第十四章:无监督学习 ; 第十五章:随机森林; 第十六章:集成学习; 第十七章:无向图模型; 第十八章: 高维问题。
监督学习中,有一个明确的成功或不成功的量度,因此可用于判断特定情况下的充分性 (adequacy),并比较不同方法在各种情况下的有效性 (effectiveness).成功的损失直接用在联合分布 \(\Pr(X,Y)\) 上的期望损失来衡量.这个可以用各种方式来衡量,包括交叉验证.在非监督学习中,没有这些直接衡量成功的量度.从大部分非监督学习的算法的输出中评估推断的有效性是很难确定的.必须诉诸于启发式变量 (heuristic arguments),在监督学习也经常使用,这不仅可以激励 (motivating) 算法,而且为了评价结果的质量.因为有效性是主观问题,不能直接加以证实,这种不舒服 (unconfortable) 的情形导致提出的方法激增。
第十一章:神经网络; 第十二章:支持向量机与灵活判别方法; 第十三章:原型方法与最近邻算法。
这章中我们描述一类学习方法,它是基于在不同的领域(统计和人工智能)中独立发展起来但本质上相同的模型.中心思想是提取输入的线性组合作为导出特征 (derived features),然后将目标看成特征的非线性函数进行建模.这是一个很有效的学习方法,在许多领域都有广泛应用.我们首先讨论投影寻踪模型 (projection pursuit model),这是在半参统计和光滑化领域中发展出来的.本章的剩余部分集中讨论神经网络模型.
第八章:模型推断与平均化; 第九章:加性模型、树模型及相关方法; 第十章:提升方法与加性树模型。
本书的大部分章节中,对于回归而言,模型的拟合(学习)通过最小化平方和实现;或对于分类而言,通过最小化交叉熵实现.事实上,这两种最小化都是用极大似然来拟合的实例。
第五章:基函数扩展与正则化; 第六章:核平滑方法; 第七章:模型评估与选择。
第三章:线性回归方法; 第四章:线性分类方法。
总结:
英文原书《The Elements of Statistical Learning》 (2nd Edition),简称ESL。
“统计学的那些事” 的一段话,清楚的道出了自己同样的心声,“基础”那两个字也曾让自己怀疑人生。
文章看得差不多了,就反复看他们的那本书“The Elements of Statistical learning”(以下简称 ESL)。说实话,不容易看明白,也没有人指导,我只好把文章和书一起反复看,就这样来来回回折腾。比如为看懂 Efron 的 “ Least angle regression ” , 我一个人前前后后折腾了一年时间(个人资质太差)。当时国内还有人翻译了这本书(2006 年),把名字翻译为“统计学习基础”。我的神啦,这也叫“基础”!还要不要人学啊!难道绝世武功真的要练三五十年?其实正确的翻译应该叫“精要”。在我看来,这本书所记载的是绝世武功的要义,强调的是整体的理解,联系和把握,绝世武功的细节在他们的文章里。
《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍
Unsupervised Learning
无监督学习这个术语指的是在没有标注数据(即已知感兴趣结果的数据)的情况下,从数据中提取意义的统计方法。在第四章到第六章中,目标是构建一个模型(一套规则),用一组预测变量来预测一个响应变量。这就是监督学习。与此相反,无监督学习也构建数据的模型,但它不区分响应变量和预测变量。
无监督学习可以用于实现不同的目标。在某些情况下,当没有带标签的响应变量时,它可用于创建预测规则。例如,聚类方法可以用于识别有意义的数据组。我们可以使用用户在网站上的点击和人口统计数据,将不同类型的用户分组。然后,网站可以根据这些不同类型进行个性化。
在另一些情况下,目标可能是将数据的维度降至一个更易于管理的变量集。然后,这个缩减后的集合可以作为输入用于预测模型,比如回归或分类。例如,我们可能有成千上万个传感器来监测一个工业过程。通过将数据简化为一个更小的特征集,我们也许能够构建一个比包含数千个传感器数据流更强大、更可解释的过程故障预测模型。
最后,无监督学习可以被视为探索性数据分析(参见第一章)的延伸,适用于您面对大量变量和记录的情况。其目的是深入了解一组数据以及不同变量之间的相互关系。无监督技术让您能够筛选和分析这些变量,并发现其中的关系。
《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍
Statistical Machine Learning
统计学在近期发展中,致力于开发更强大、更自动化的预测建模技术,涵盖了回归和分类。这些方法与上一章讨论的方法一样,都是有监督学习——它们通过在已知结果的数据上进行训练,来学习如何预测新数据的结果。它们属于统计机器学习的范畴,与经典统计方法不同之处在于,它们是数据驱动的,并且不试图对数据强加线性的或其他整体结构。例如,K-最近邻(K-Nearest Neighbors)方法非常简单:根据相似记录的分类方式来对一条记录进行分类。最成功和应用最广泛的技术是基于集成学习(ensemble learning)并应用于决策树(decision trees.)的方法。集成学习的基本思想是使用多个模型来形成预测,而不是仅仅使用一个单一模型。决策树是一种灵活且自动化的技术,用于学习预测变量和结果变量之间关系的规则。事实证明,将集成学习与决策树相结合,可以产生一些性能最佳的现成预测建模技术。
许多统计机器学习技术的发展,可以追溯到加州大学伯克利分校的统计学家 Leo Breiman(参见图6-1)和斯坦福大学的 Jerry Friedman。 他们的工作,以及伯克利和斯坦福其他研究人员的工作,始于1984年对树模型的开发。随后在20世纪90年代开发的装袋法(bagging)和提升法(boosting)等集成方法,奠定了统计机器学习的基础。