《机器学习的数学基础》(1/7)

读书笔记之一:导言

英文原版《Mathematics for Machine Learning》,在过去大半年的时间里断断续续地坚持读完了。只能说,数学书永远是最耗费时间和脑力的。如今终于抽出空来,把阅读中的笔记整理出来,并按知识领域分成七篇文章。

数学是这个世界上最精确的语言!

在学习世界里,人们常说马斯克的“第一性原理”重要,又常用“概念清晰”来评价一个好学生。归根到底,这些都指向同一件事:抓住根本概念的重要性。这也正是《Mathematics for Machine Learning》最突出的特点。

当然,由于本书涵盖了线性代数、解析几何、微积分、概率等,读起来仍需要一定的数学基础。特别是在推导上比较紧凑,需配合 ChatGPT 等工具进行拓展。

这本书最大的价值在于:它并非简单罗列公式,而是从数学的角度、用数学的语言,把机器学习所需的数学概念系统梳理了一遍,并把各个知识点之间的关联讲得十分透彻。能明显感受到作者试图搭建的是一张“概念图谱”,而不是一本“知识清单”。

看完这本书之后,不禁想起前段时间读的那套数学丛书《鸢尾花套书》,共七本,每一本都是大块头。这套书最大的特色是图文并茂,乍一翻开仿佛是在看一本艺术画册:色彩丰富、图示大量,视觉体验极强。然而,也正因为为了避免内容过于数学化,它往往只是简单罗列知识点,对知识之间的关联着墨不多。再加上为了强调可视化效果,许多概念被过度简化,读者得到的往往只是表面印象,反而把概念里面最本质性的部分遗漏了,甚至可能形成片面或错误的理解。

我也因此受过不小的误导。直到读完这本书,才恍然大悟——原来某些概念真正的含义竟是如此!

学习本身就是“理论—实践—再理论”的往复过程。概念先被理解,然后在练习、应用或阅读中接受检验;理解出现缝隙,再回头重新咀嚼概念,于是便有了升华。概念的扩展,就像重新定义“人”。在国内时,也许我们以为“人”就是黄种人的样子;出国后见到不同族群,再回头看“人”的定义,就会发现自己对这一概念的理解被重新拉宽、拉深。

这本书也是类似的体验。它用数学语言为概念划清边界、直指本质。例如向量、内积等,看似熟悉的词语,在本书中常常被完整严格的定义:我们过去将“内积”等同于“点积”,但本书会告诉你,真正的内积概念要广泛得多,例如协方差也可以作为内积(见6.9节 随机变量的内积),其应用也远超日常所见。

这份笔记是我结合英文原版和部分中文资料整理而成的,希望能为后续学习打下一层更扎实的概念地基。

原书英文版下载
本书分两部分:

  • Part I:Mathematical Foundations
  • Part II:Central Machine Learning Problems

Part I 中文版已有网络资源,收录在译者这个专栏

不过,该译作者针对原书作了小小的修改,例如在例6.1中,就把$换成人民币¥;在矩阵那个章节增加了分块矩阵的运算!最后一章节的“信息论”原书并没有(或者是否我看的原书和译者不一致)。

以下是本书的一些摘录。

1、导言

核心的概念是内积!内积的定义以及从内积引申出的正定矩阵、范数、距离等概念。

注意函数和曲面的区别。详见《函数与曲面.md》

理解这些原理可以帮助创建新的机器学习解决方案,理解和调试现有方法,了解我们正在使用的方法的固有假设和局限性。

1.1 为直觉寻找词语

作为另一个关于词语是多么微妙的例子,有(至少)三种不同的方式来思考向量

  • 向量作为数字数组(计算机科学观点)
  • 向量作为具有方向和大小的箭头(物理学观)
  • 向量作为一个服从加法和缩放的对象(数学观点)。

不同学科的研究范围:

  • 向量和矩阵的研究称为 线性代数(linear algebra)
  • 相似度和距离的构造是 解析几何(analytic geometry) 的核心
  • 不确定性的量化是 概率论(probability theory) 的范畴
  • 梯度的研究: 向量微积分(vector calculus) 为了训练机器学习模型,我们通常会找到最大化某些性能指标的参数。 许多优化技术需要梯度的概念,它告诉我们搜索解决方案的方向。

全书的读书笔记(共7篇)如下:
《机器学习的数学基础》读书笔记之一 :导言
《机器学习的数学基础》读书笔记之二 :线性代数
《机器学习的数学基础》读书笔记之三 :解析几何
《机器学习的数学基础》读书笔记之四 :矩阵分解
《机器学习的数学基础》读书笔记之五 :向量微积分
《机器学习的数学基础》读书笔记之六 :概率与分布
《机器学习的数学基础》读书笔记之七 :连续优化