《机器学习的数学基础》(3/7)

读书笔记之三:解析几何

3、解析几何

Analytic Geometry

内积及其相应的范数和度量可以得到相似性和距离的直观概念

范数表示向量的长度,范数可以由内积引出(但不必要,例如曼哈顿范数就不是)
内积可以是不同的定义(所以不同的内积定义的长度是不一样的),内积由唯一的对称正定矩阵确定(正定矩阵的定义符合要求)。
内积来计算向量的长度和向量之间的夹角.

3.1 范数

向量空间 \(V\) 的范数是一个指定每个向量 \(x\) 的长度的函数:

\[ \|\cdot\|: V \to \mathbb{R} \]

\[ x \mapsto \|x\| \]

并且对于任何 \(\lambda \in \mathbb{R}\) 以及 \(x, y \in V\),以下成立:

  • 绝对一次齐次性 (Absolutely homogeneous):\(\|\lambda x\| = |\lambda| \|x\|\)
  • 三角不等式 (Triangle inequality):\(\|x + y\| \leq \|x\| + \|y\|\)
  • 正定性 (Positive definite):\(\|x\| \geq 0\)\(\|x\| = 0 \iff x = 0\)

注意,范数可以是多种,例如\(\mathcal l_1\)范数(曼哈顿范数)、\(\mathcal l_2\)范数(欧氏距离)。

3.2 内积

内积可以引入一些直观的几何概念,例如向量的长度和两个向量之间的角度或距离。内积的一个主要目的是确定向量之间是否正交。

3.2.1 点积

我们可能已经熟悉了一种特殊类型的内积,\(\mathbb{R}^n\)中的标量积/点积(scalar product/dot product):

\[ \mathbf{x}^\top \mathbf{y} = \sum_{i=1}^n x_i y_i \tag{3.5} \]

在这本书中,我们将把这种特殊的内积称为点积。但是,内积是具有特定性质的更一般的概念,我们现在将介绍这些概念。

定义 3.3:内积与内积空间

\(V\) 为向量空间,\(\langle \cdot,\cdot \rangle : V \times V \to \mathbb{R}\) 为一个双线性映射,即它将 \(V\) 中两个向量映射为一个实数,则有:

  • \(\langle \cdot,\cdot \rangle\)正定且对称的,则称其为 \(V\) 上的内积,常记作 \(\langle x, y \rangle\)
  • \((V, \langle \cdot,\cdot \rangle)\) 被称为一个内积空间(或带内积的实向量空间);
  • 若该内积为点积,则称 \((V, \langle \cdot,\cdot \rangle)\) 为一个欧氏向量空间

注1:本书将上述所有空间统称为“内积空间”。
注2:点积只是内积的一种特殊的定义,而非唯一。
注3,正定性是指\(\forall \boldsymbol{x} \in V \setminus \{\mathbf{0}\}:\quad \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} > 0.\),而不是:\(\boldsymbol{x}^T\boldsymbol{A} \boldsymbol{y} > 0.\)

3.3 正定矩阵

正定矩阵一定是对称的。《正定矩阵和半正定矩阵的区别.md》
\(A\) 正定 \(\iff\) 所有特征值 \(\lambda_i > 0\)。(故行列式也大于0)

对称正定矩阵

对称正定矩阵在机器学习中起着重要的作用,它们是通过内积定义的。在 4.3 节矩阵分解中将涉及到对称正定矩阵。对称半正定矩阵的思想也是机器学习中核技巧的关键(12.4 节)。

考虑一个 \(n\) 维向量空间 \(V\) 和内积 \[ \langle \cdot, \cdot \rangle : V \times V \to \mathbb{R} \] (见定义 3.3),以及 \(V\) 的有序基 \[ B = (\boldsymbol{b}_{1}, \ldots, \boldsymbol{b}_{n}). \] 对于合适的 \(\psi_i, \lambda_j \in \mathbb{R}\),任何向量 \(\boldsymbol{x}, \boldsymbol{y} \in V\) 都可以写成基向量的线性组合: \[ \boldsymbol{x} = \sum_{i=1}^{n} \psi_i \boldsymbol{b}_i \in V, \qquad \boldsymbol{y} = \sum_{j=1}^{n} \lambda_j \boldsymbol{b}_j \in V. \]

由于内积的双线性,对于所有 \(\boldsymbol{x}, \boldsymbol{y} \in V\),有: \[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle = \left\langle \sum_{i=1}^{n} \psi_i \boldsymbol{b}_i,\ \sum_{j=1}^{n} \lambda_j \boldsymbol{b}_j \right\rangle = \sum_{i=1}^{n}\sum_{j=1}^{n} \psi_i \langle \boldsymbol{b}_i, \boldsymbol{b}_j \rangle \lambda_j = \hat{\boldsymbol{x}}^{\top} \boldsymbol{A} \hat{\boldsymbol{y}}. \]

\(n = 2\) 为例,考虑内积: \[ \begin{aligned} \left\langle \sum_{i=1}^{2} \psi_i \boldsymbol{b}_i, \sum_{j=1}^{2} \lambda_j \boldsymbol{b}_j \right\rangle & = \left\langle \psi_1 \boldsymbol{b}_1 + \psi_2 \boldsymbol{b}_2,\ \lambda_1 \boldsymbol{b}_1 + \lambda_2 \boldsymbol{b}_2 \right\rangle \\ & = \psi_1 \left\langle \boldsymbol{b}_1, \lambda_1 \boldsymbol{b}_1 + \lambda_2 \boldsymbol{b}_2 \right\rangle + \psi_2 \left\langle \boldsymbol{b}_2, \lambda_1 \boldsymbol{b}_1 + \lambda_2 \boldsymbol{b}_2 \right\rangle. \end{aligned} \]

展开后得到: \[ \begin{aligned} & \psi_1 [ \lambda_1 \langle \boldsymbol{b}_1, \boldsymbol{b}_1 \rangle + \lambda_2 \langle \boldsymbol{b}_1, \boldsymbol{b}_2 \rangle ] + \psi_2 [ \lambda_1 \langle \boldsymbol{b}_2, \boldsymbol{b}_1 \rangle + \lambda_2 \langle \boldsymbol{b}_2, \boldsymbol{b}_2 \rangle ] \\ &= [\psi_1, \psi_2] \begin{bmatrix} \langle \boldsymbol{b}_1, \boldsymbol{b}_1 \rangle & \langle \boldsymbol{b}_1, \boldsymbol{b}_2 \rangle \\ \langle \boldsymbol{b}_2, \boldsymbol{b}_1 \rangle & \langle \boldsymbol{b}_2, \boldsymbol{b}_2 \rangle \end{bmatrix} \begin{bmatrix} \lambda_1 \\ \lambda_2 \end{bmatrix} \\ &= [\psi_1, \psi_2]\, \boldsymbol{A} \begin{bmatrix} \lambda_1 \\ \lambda_2 \end{bmatrix}, \end{aligned} \] 其中 \(A_{ij} := \langle \boldsymbol{b}_i, \boldsymbol{b}_j \rangle\)\(\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}\)\(\boldsymbol{x}, \boldsymbol{y}\) 相对于基 \(B\) 的坐标。这意味着内积 \(\langle \cdot, \cdot \rangle\)\(\boldsymbol{A}\) 唯一确定。由于内积是对称的,矩阵 \(\boldsymbol{A}\) 也是对称的。此外,内积的正定性意味着: \[ \forall \boldsymbol{x} \in V \setminus \{\mathbf{0}\}:\quad \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} > 0. \]

定义 3.4 对称正定矩阵

一个对称矩阵 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 称为 对称正定矩阵(symmetric, positive definite),如果它满足: \[ \forall \boldsymbol{x} \in V \setminus \{\mathbf{0}\} : \quad \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} > 0. \]

如果只满足 \[ \forall \boldsymbol{x} \in V \setminus \{\mathbf{0}\} : \quad \boldsymbol{x}^{\top} \boldsymbol{A} \boldsymbol{x} \ge 0, \] 则称 \(\boldsymbol{A}\) 为对称半正定矩阵(symmetric, positive semidefinite)。

例 3.4 对称正定矩阵

考虑矩阵 \[ \boldsymbol{A}_1 = \begin{bmatrix} 9 & 6 \\ 6 & 5 \end{bmatrix}, \quad \boldsymbol{A}_2 = \begin{bmatrix} 9 & 6 \\ 6 & 3 \end{bmatrix}. \]

对于任意 \(\boldsymbol{x} = [x_1, x_2]^\top \neq \mathbf{0}\),有 \[ \begin{aligned} \boldsymbol{x}^{\top} \boldsymbol{A}_1 \boldsymbol{x} & = [x_1, x_2] \begin{bmatrix} 9 & 6 \\ 6 & 5 \end{bmatrix} \begin{bmatrix} x_1 \\ x_2 \end{bmatrix} \\ & = 9 x_1^2 + 12 x_1 x_2 + 5 x_2^2 \\ &= (3 x_1 + 2 x_2)^2 + x_2^2 > 0, \end{aligned} \] 因此 \(\boldsymbol{A}_1\) 是对称且正定的。而

\[ \boldsymbol{x}^{\top} \boldsymbol{A}_2 \boldsymbol{x} = 9 x_1^2 + 12 x_1 x_2 + 3 x_2^2 = (3 x_1 + 2 x_2)^2 - x_2^2, \]\(\boldsymbol{x} = [2, -3]^\top\) 时,\(\boldsymbol{x}^{\top} \boldsymbol{A}_2 \boldsymbol{x} < 0\),所以 \(\boldsymbol{A}_2\) 仅对称,但不是正定矩阵。

如果 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\) 是对称正定的,则可以定义内积: \[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle = \hat{\boldsymbol{x}}^\top \boldsymbol{A} \hat{\boldsymbol{y}}, \] 其中 \(\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}\)\(\boldsymbol{x}, \boldsymbol{y}\) 相对于有序基 \(B\) 的坐标。

定理 3.5 对称正定矩阵与内积

\(V\) 是一个实值、有限维向量空间,\(B\)\(V\) 的一个有序基: \[ B = (\boldsymbol{b}_1, \ldots, \boldsymbol{b}_n), \] 并且 \(\langle \cdot , \cdot \rangle : V \times V \to \mathbb{R}\)\(V\) 上的一个内积。

定理:内积 \(\langle \cdot , \cdot \rangle\) 当且仅当存在一个对称正定矩阵 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\),使得对于任意 \(\boldsymbol{x}, \boldsymbol{y} \in V\),有: \[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle = \hat{\boldsymbol{x}}^\top \boldsymbol{A} \hat{\boldsymbol{y}}, \] 其中 \(\hat{\boldsymbol{x}}, \hat{\boldsymbol{y}}\)\(\boldsymbol{x}, \boldsymbol{y}\) 相对于基 \(B\) 的坐标向量。

如果 \(\boldsymbol{A}\) 是对称正定矩阵,则它具有以下性质:

  • 零空间(核)只包含零向量: 对于所有 \(\boldsymbol{x} \neq \mathbf{0}\),有 \[ \boldsymbol{x}^\top \boldsymbol{A} \boldsymbol{x} > 0, \] ​ 这意味着如果 \(\boldsymbol{x} \neq \mathbf{0}\),则 \(\boldsymbol{A} \boldsymbol{x} \neq \mathbf{0}\)

  • 对角元素为正: 矩阵 \(\boldsymbol{A}\) 的对角元素 \(a_{ii}\) 满足 \[ a_{ii} = \boldsymbol{e}_i^\top \boldsymbol{A} \boldsymbol{e}_i > 0, \] 其中 \(\boldsymbol{e}_i\)\(\mathbb{R}^n\) 的标准基向量

3.4 长度和距离

在第3.1节中,我们已经讨论了可以用来计算向量长度的范数。内积与范数密切相关,因为任何内积都自然地引出范数\[ \|\boldsymbol{x}\| := \sqrt{\langle \boldsymbol{x}, \boldsymbol{x} \rangle} \] 这使得我们可以用内积来计算向量的长度。然而,并不是每一个范数都是由内积引起的。曼哈顿范数就是一种没有对应内积的范数。在下面,我们将集中讨论由内积导出的范数,并介绍一些几何概念,如长度、距离和角度。

柯西-施瓦兹不等式

对于一个内积向量空间 \((V, \langle \cdot, \cdot \rangle)\),其引出的范数 \(\|\cdot\|\) 满足柯西-施瓦兹不等式(Cauchy-Schwarz Inequality)\[ |\langle \boldsymbol{x}, \boldsymbol{y} \rangle| \leqslant \|\boldsymbol{x}\| \, \|\boldsymbol{y}\| \]

3.5 距离和度量

考虑一个内积空间 \((V, \langle \cdot, \cdot \rangle)\),对于任意 \(\boldsymbol{x}, \boldsymbol{y} \in V\),定义: \[ d(\boldsymbol{x}, \boldsymbol{y}) := \|\boldsymbol{x} - \boldsymbol{y}\| = \sqrt{\langle \boldsymbol{x} - \boldsymbol{y}, \boldsymbol{x} - \boldsymbol{y} \rangle} \] 该式称为 \(\boldsymbol{x}\)\(\boldsymbol{y}\) 之间的距离(distance)。如果我们采用点积(dot product)作为内积,则该距离被称为欧几里得距离(Euclidean distance)。定义映射: \[ d : V \times V \to \mathbb{R}, \quad (\boldsymbol{x}, \boldsymbol{y}) \mapsto d(\boldsymbol{x}, \boldsymbol{y}) \] 称为该空间上的一个度量(metric)。 与向量的长度类似,向量之间的距离不一定需要依赖于内积:一般的范数已经足够用于定义距离。如果一个范数由内积引出,那么该范数导出的距离也依赖于所选用的内积,不同内积可能导致不同的距离定义。

乍一看,内积和度量的一系列属性看起来非常相似。然而,通过比较定义3.3和定义3.6,我们发现 \(\langle \boldsymbol{x}, \boldsymbol{y} \rangle\)\(d(\boldsymbol{x}, \boldsymbol{y})\) 的表现是相反的

\(\boldsymbol{x}\)\(\boldsymbol{y}\) 非常相似时,其内积值较大,而度量值却很小(因为度量涉及两个向量的差,即 \(\boldsymbol{x} - \boldsymbol{y}\))。

3.6 角度和正交

直观地说,两个向量之间的夹角告诉我们它们的方向有多相似。(个人注:和长度无关!)

两个向量 \(\boldsymbol{x}\)\(\boldsymbol{y}\)正交(orthogonal)的,当且仅当 \[ \langle \boldsymbol{x}, \boldsymbol{y} \rangle = 0, \] 写作 \(\boldsymbol{x} \perp \boldsymbol{y}\)。若 \(\|\boldsymbol{x}\| = 1 = \|\boldsymbol{y}\|\),即两个向量都是单位向量,则称 \(\boldsymbol{x}\)\(\boldsymbol{y}\)标准正交(orthonormal)的。

两个向量 \(\boldsymbol{x}\)\(\boldsymbol{y}\) 之间的角度 \(\omega\) 取决于所采用的内积。关于一种内积正交的向量不一定关于其他内积正交。

夹角的定义:两个非零向量 \(\boldsymbol{x}\)\(\boldsymbol{y}\) 之间的夹角 \(\omega\) 满足: \[ \cos \omega = \frac{\langle \boldsymbol{x}, \boldsymbol{y} \rangle}{\|\boldsymbol{x}\| \, \|\boldsymbol{y}\|} \]

3.7 正交矩阵

方阵 \(\boldsymbol{A} \in \mathbb{R}^{n \times n}\)。当且仅当 \(\boldsymbol{A}\)列向量构成一组标准正交(orthonormal)的向量组时,\(\boldsymbol{A}\) 被称为正交矩阵(orthogonal matrix)。

换句话说,\(\boldsymbol{A}\) 是正交矩阵当且仅当满足: \[ \boldsymbol{A} \boldsymbol{A}^{\top} = \boldsymbol{I} = \boldsymbol{A}^{\top} \boldsymbol{A} \] 正交矩阵保持长度不变;正交矩阵变换是特殊的,因为当一个向量 \(\boldsymbol{x}\)正交矩阵 \(\boldsymbol{A}\) 变换后,其长度保持不变。以点积为内积时,可以如下推导: \[ \|\boldsymbol{A} \boldsymbol{x}\|^{2} = (\boldsymbol{A} \boldsymbol{x})^{\top} (\boldsymbol{A} \boldsymbol{x}) = \boldsymbol{x}^{\top} \boldsymbol{A}^{\top} \boldsymbol{A} \boldsymbol{x} = \boldsymbol{x}^{\top} \boldsymbol{I} \boldsymbol{x} = \boldsymbol{x}^{\top} \boldsymbol{x} = \|\boldsymbol{x}\|^{2} \] 因此,正交变换不会改变向量的长度或两向量之间的角度(即它保持内积结构,这使得正交矩阵广泛应用于几何变换、图像旋转、特征值分解等领域。这表明正交矩阵定义的变换是旋转(也可能是翻转).

正交补三维向量空间中的平面\(U\)可以由它的法向量来描述。法向量张成某子空间 \(U\) 的正交补 \(U^\perp\);在 \(n\) 维向量空间和仿射空间中,通常可以用正交补来描述超平面。

3.8 函数的内积

设两个函数 \(\boldsymbol{u}: \mathbb{R} \rightarrow \mathbb{R}\)\(\boldsymbol{v}: \mathbb{R} \rightarrow \mathbb{R}\),则它们在区间 \([a, b]\) 上的内积可以定义为: \[ \langle u, v \rangle := \int_{a}^{b} u(x)\, v(x)\, dx, \quad \text{其中 } a, b < \infty \] 与一般的内积一样,我们可以使用这个定义来引出函数的范数和正交性。特别地,若\(\langle u, v \rangle = 0,\)则称函数 \(u\)\(v\) 在该内积下是正交的

一个例子: \(\sin(x)\)\(\cos(x)\) 的正交性

若取函数 \(u(x) = \sin(x)\)\(v(x) = \cos(x)\),则 \[ f(x) = u(x) v(x) = \sin(x) \cos(x) \] 如图 3.8 所示,该函数是一个奇函数,即满足:\(f(-x) = -f(x)\) 因此,在对称区间 \([a, b] = [-\pi, \pi]\) 上,其积分为 0,即: \[ \int_{-\pi}^{\pi} \sin(x) \cos(x)\, dx = 0 \] 由此可知,\(\sin(x)\)\(\cos(x)\) 是正交函数。

如果积分区间为 \([-\pi, \pi]\),则下列函数集: \[ \{1, \cos(x), \cos(2x), \cos(3x), \ldots\} \] 构成一个正交函数集。也就是说,集合中任意两个不同的函数在该区间上的内积为 0。

该集合张成了一个函数的巨大子空间。这个子空间中的函数在 \([-\pi, \pi)\) 上是偶函数且具有周期性。将任意函数投影到这个子空间,是傅里叶级数(Fourier series)展开的核心思想。(备注:傅里叶级数中的正交函数集)

3.9 正交投影

投影是一类重要的线性变换(还有旋转和反射)。

投影(Projection)

\(V\) 为一个向量空间,\(U\subseteq V\)\(V\) 的一个子空间。如果一个线性映射 \(\pi: V \rightarrow U\) 满足: \[ \pi^2 = \pi \circ \pi = \pi, \] 则称 \(\pi\) 是一个从 \(V\)\(U\)投影(projection)

由于线性映射可以由矩阵表示,因此上述定义也适用于一类特殊的矩阵,这类矩阵被称为投影矩阵(projection matrix),记作 \(\boldsymbol{P}_\pi\),它满足: \[ \boldsymbol{P}_\pi^2 = \boldsymbol{P}_\pi \] 也就是说,投影矩阵是满足幂等性质(idempotent)的线性变换矩阵投影 \(\pi_{U}(\boldsymbol{x}) \in \mathbb{R}^{n}\) 仍然是 \(n\) 维向量而不是标量。我们可以用张成子空间 \(U\) 的基向量 \(\boldsymbol{b}\) 来表示投影,这样我们就只需要一个坐标 \(\lambda\) 来表示投影(针对一维子空间(线)上的投影),而不再需要 \(n\) 个坐标。在第四章矩阵分解中,我们将展示 \(\pi_{U}(\boldsymbol{x})\)\(\boldsymbol{P}_{\pi}\) 的特征向量,对应的特征值为 \(1\)

通过投影,我们可以近似求解无解的线性方程组 \(\boldsymbol{A} \boldsymbol{x} = \boldsymbol{b}\)。线性方程组无解,意味着 \(\boldsymbol{b}\) 不在 \(\boldsymbol{A}\) 的张成空间中,也就是说,向量 \(\boldsymbol{b}\) 不在 \(\boldsymbol{A}\) 的列所张成的子空间内。具体的原理见资料《线性方程解的本质.md》文件。如果线性方程不能精确求解,那么我们可以尝试找到一个近似解(approximate solution)。其思想是在 \(\boldsymbol{A}\) 的列所张成的子空间中找到最接近 \(\boldsymbol{b}\) 的向量,即计算 \(\boldsymbol{b}\)\(\boldsymbol{A}\) 的列所张成的子空间上的正交投影。这类问题在实践中经常出现,这个解叫做超定系统的最小二乘解(least-squares solution)(假设点积为内积)。

3.10 旋转

旋转(rotation)是一种线性映射(更具体地说,是欧氏向量空间的自同构),它将平面绕原点旋转\(θ\)角,即原点是一个不动点。

\(\mathbb{R}^{2}\) 中,旋转使物体绕平面内的一个原点旋转。如果旋转角度是正的,我们就称为逆时针旋转。

\(\mathbb{R}^{3}\) 中的旋转与 \(\mathbb{R}^{2}\) 不同的是,在 \(\mathbb{R}^{3}\) 中,我们可以围绕其中一维的轴旋转任何二维平面。确定通用旋转矩阵的最简单方法是确定标准基 \(e_1, e_2, e_3\) 旋转得到的像,并确保这些像 \(\boldsymbol{R e}_1, \boldsymbol{R e}_2, \boldsymbol{R e}_3\) 彼此正交。然后,我们可以通过组合标准基的像得到一个通用的旋转矩阵 \(\boldsymbol{R}\)

\(\mathbb{R}^{n}\) 中的旋转:

从二维和三维推广到 \(n\) 维的欧氏向量空间的旋转可以直观地描述为:固定其 \(n-2\) 维,旋转 \(\mathbb{R}^{n}\) 空间中的二维平面。就像在三维情况下,我们可以旋转任意平面(\(\mathbb{R}^{n}\) 的二维子空间)。

旋转的性质:

旋转表现出许多有用的性质,这些性质可以通过将它们视为正交矩阵来说明(定义 3.8):

  • 旋转保持距离,即

\[ \|\boldsymbol{x} - \boldsymbol{y}\| = \left\| \boldsymbol{R}_{\theta}(\boldsymbol{x}) - \boldsymbol{R}_{\theta}(\boldsymbol{y}) \right\| \]

​ 换句话说,任意两点经过旋转变换后,它们之间的距离保持不变。

  • 旋转保持角度,即 \(\boldsymbol{R}_{\theta} \boldsymbol{(x)}\)\(\boldsymbol{R}_{\theta} \boldsymbol{(y)}\) 之间的夹角与原始向量 \(\boldsymbol{x}\)\(\boldsymbol{y}\) 之间的夹角相同。

  • 三维(或更高维)旋转通常是不可交换的。因此,应用旋转的顺序是重要的,即使它们是围绕同一点旋转。

    在二维空间中,旋转是可交换的。也就是说,对于所有 \(\phi, \theta \in [0, 2\pi)\),都有: \[ \boldsymbol{R}(\phi)\boldsymbol{R}(\theta) = \boldsymbol{R}(\theta)\boldsymbol{R}(\phi) \] 当且仅当它们围绕同一个点(例如原点)旋转时,二维旋转矩阵形成一个关于乘法的阿贝尔群。

全书的读书笔记(共7篇)如下:
《机器学习的数学基础》读书笔记之一 :导言
《机器学习的数学基础》读书笔记之二 :线性代数
《机器学习的数学基础》读书笔记之三 :解析几何
《机器学习的数学基础》读书笔记之四 :矩阵分解
《机器学习的数学基础》读书笔记之五 :向量微积分
《机器学习的数学基础》读书笔记之六 :概率与分布
《机器学习的数学基础》读书笔记之七 :连续优化