《统计学习基础》 (6/6)

读书笔记之六:第14章-第18章

第十四章:无监督学习 ; 第十五章:随机森林; 第十六章:集成学习; 第十七章:无向图模型; 第十八章: 高维问题。

第十四章 无监督学习

监督学习中,有一个明确的成功或不成功的量度,因此可用于判断特定情况下的充分性 (adequacy),并比较不同方法在各种情况下的有效性 (effectiveness).成功的损失直接用在联合分布 \(\Pr(X,Y)\) 上的期望损失来衡量.这个可以用各种方式来衡量,包括交叉验证.在非监督学习中,没有这些直接衡量成功的量度.从大部分非监督学习的算法的输出中评估推断的有效性是很难确定的.必须诉诸于启发式变量 (heuristic arguments),在监督学习也经常使用,这不仅可以激励 (motivating) 算法,而且为了评价结果的质量.因为有效性是主观问题,不能直接加以证实,这种不舒服 (unconfortable) 的情形导致提出的方法激增。

关联规则分析 (Association rule analysis) 已经成为挖掘贸易数据的流行工具.目标是寻找变量 \(X=(X_1,X_2,\ldots,X_p)\) 在数据中出现最频繁的联合值.在二值数据 \(X_j\in\{0,1\}\) 中应用最多,也称作“市场篮子”分析.这种情形下观测值为销售交易,比如出现在商店收银台的商品.变量表示所有在商店中出售的商品.对于观测 \(i\),每个变量 \(X_j\) 取值为 0 或 1;如果第 \(j\) 个商品作为该次交易购买的一部分则 \(x_{ij}=1\),而如果没有购买则 \(x_{ij}=0\).这些经常有联合值的变量表示物品经常被一起购买.这个信息对于货架、跨营销的促销活动、商品目录的设计,以及基于购买模式的消费者划分都是很有用的.

关联规则成为了在相关的市场篮子的设定下用于分析非常大的交易数据库的流行工具.这是当数据可以转换成多维邻接表的形式时.输出是以容易理解并且可解释的关联规则 公式(14.4)的形式展现的.Apriori 算法允许分析可以用到大的数据库中,更大的数据库适用于其他类型的分析.关联规则是数据挖掘最大的成功之一.

聚类分析

聚类分析的所有目标的核心是度量要聚类的单个点间相似(或不相似)的程度.聚类方法试图基于点间相似性的定义来将其分类.相似性的定义只能从关注的主题得到.某种程度上,这个情形与确定预测问题(监督学习)中的损失或花费函数相似.在预测问题中,损失函数与错误的预测有关,而错误的预测取决于数据之外的考虑.

简而言之,聚类方法中相似性的定义就如同监督学习问题中损失函数一样重要.

确定一个合适的不相似性的度量远比选择聚类算法来得重要.(涉及领域知识。)

主成分主曲线和主曲面

流形学习(manifold learning)

流形(manifold):数学上,流形是一个拓扑空间,在每一点附近局部地近似欧式空间.更精确地,\(n\) 维流形的每个点与维度为 \(n\) 的欧式空间同态的邻域。

是机器学习、模式识别中的一种方法,在维数约简方面具有广泛的应用。它的主要思想是将高维的数据映射到低维,使该低维的数据能够反映原高维数据的某些本质结构特征。流形学习的前提是有一种假设,即某些高维数据,实际是一种低维的流形结构嵌入在高维空间中。流形学习的目的是将其映射回低维空间中,揭示其本质。

个人注:关于流行学习知乎上一篇通熟易懂的文章
https://www.zhihu.com/question/24015486/answer/26524937
最常用的例子就是瑞士卷

投影是从一个向量空间到其自身的线性变换,并且投影矩阵满足\(\mathbf P^2=\mathbf P\)

个人注:应该是到子空间吧。不是所有从一个向量空间到自身的线性变换都是投影,但所有投影都是线性变换,而且满足 \(P^2 = P\)(即投影两次不变)。

主成分可以看成是主曲线的特殊情形

第十五章 随机森林

在每次分割时,随机选择 \(m\le p\) 个输入变量作为候选变量用来分割

一般地,\(m\) 取为 \(\sqrt{p}\),或者甚至小到取 1.

Bagging 可以看成是特殊的随机森林,即 \(m=p\) 的随机森林.

另外,发明者给出下面两条推荐:

  • 对于分类,\(m\) 的默认值为 \(\lfloor \sqrt p \rfloor\),且最小的结点数为 1.
  • 对于回归,\(m\) 的默认值为 \(\lfloor p/3\rfloor\),且最小的结点数为 5.

实际中这些参数的最优值取决于具体问题,并且它们应当被视为 调整参数 (tunning parameters).在图 15.3 中,\(m=6\) 比默认值 \(\lfloor 8/3\rfloor =2\) 更好.

第十六章 集成学习

"Bet on Sparsity" 原则。
\(L_1\) 的收缩能更好地适应稀疏的情形(在所有可能选择中,非零系数的基函数的个数很少)。

当拟合系数时,我们应该使用 \(L_2\) 惩罚,而不是 \(L_1\) 惩罚.另一方面,如果这里只有少量的(比如,\(1000\))系数非零,则 lasso (\(L_1\) 惩罚)会表现得很好.我们将这个看成是 稀疏 (sparse) 的情形,而第一种情形(高斯系数)是 稠密 (dense) 的.注意到尽管在稠密情形下,\(L_2\) 惩罚是最好的,但没有方法能做得很好,因为数据太少,但却要从中估计大量的非零系数.这是维数的灾难造成的损失.稀疏设定中,我们可以用 \(L_1\) 惩罚做得很好,因为非零稀疏的个数很少.但 \(L_2\) 惩罚便不行.

换句话说,\(L_1\) 惩罚的使用遵循称作 “bet on sparsity” 的这一高维问题的准则:

采用在稀疏问题中表现得好的方法,因为没有方法能在稠密问题中表现得好.

第十七章 无向图模型

图 (Graph) 由顶点(结点)集,以及连接顶点对的边集构成.在图模型中,每个顶点表示一个随机变量,并且图给出了一种理解全体随机变量联合分布的可视化方式.对于监督学习和非监督学习它们都是很有用的.在 无向图 (undirected graph) 中,边是没有方向的.我们仅限于讨论无向图模型,也称作 马尔科夫随机域 (Markov random fields) 或者 马尔科夫网络 (Markov networks)

在这些图中,两个顶点间缺失一条边有着特殊的含义:对应的随机变量在给定其它变量下是条件独立的.

图中的边用值 (value) 或者 势 (potential) 参量化,来表示在对应顶点上的随机变量间条件依赖性的强度大小.采用图模型的主要挑战是模型选择(选择图的结构)、根据数据来估计边的参数,并且从联合分布中计算边缘顶点的概率和期望.后两个任务在计算机科学中有时被称作 学习 (learning)推断(inference)

关于 有向图 (directed graphical models) 或者 贝叶斯网络 (Bayesian networks) 有大量并且活跃的文献;这是边有方向箭头(但是没有有向环)的图模型.有向图模型表示可以分解成条件分布乘积的概率分布,并且有解释因果关系的潜力.

三种等价的 Markov 性质:

  • pairwise Markov properties:
    对于所有的非邻接顶点 \(i\)\(j\)\(a\) 为剩余结点的集合,则 \(X_i\text {ind} X_j\mid X_a\)
    寻找缺失边,在给定其他结点的情况下,缺失边的两个顶点相互独立;

  • global Markov properties:
    对于所有的不相交的子集 \(a\), \(b\)\(c\),若 \(a\) 分离 \(b\)\(c\),则 \(X_b\text {ind} X_c\mid X_a\)
    寻找分离集,在给定分离集的情况下,被分离的子图相互独立;

  • local Markov properties:
    对于每个顶点 \(i\)\(a=\mathrm{bd}(i)\) 是边界集,\(b\) 为剩余结点的集合,则 \(X_i\text{ind} X_b\mid X_a\)

17.1 连续变量的无向图模型

这里我们考虑所有变量都是连续变量的马尔科夫网络.这样的图模型几乎总是用到高斯分布,因为它有方便的分析性质.我们假设观测值服从均值为 \(\mu\),协方差为 \(\mathbf \Sigma\) 的多元高斯分布.因为高斯分布至多表示二阶的关系,所以它自动地编码了一个成对马尔科夫图.

因为在高斯分布的密度函数中,指数项中关于随机变量的阶数最多是二次,所以说它至多能表示二阶的关系.

高斯分布有个性质是所有的条件分布也是高斯分布.
协方差矩阵的逆 \(\mathbf\Sigma^{-1}\) 包含变量之间的 偏协方差 (partial covariances) 信息;也就是,在给定其它变量的条件下,\(i\)\(j\) 的协方差.特别地,如果 \(\mathbf {\Theta=\Sigma^{-1}}\) 的第 \(ij\) 个元素为 0,则变量 \(i\)\(j\) 在给定其它变量情况下是条件独立的.

17.2 图结构的估计

大多数情况下,我们不知道哪些边要从图中去掉,因此想试图从数据本身找出.最近几年很多作者提出用于这个目的的 \(L_1\) (lasso) 正则化.

省略图中的边,有点类似于做变量选择,而 lasso 正是应对变量选择的“绝世武功”!

为了实现这点,它们将每个变量看成响应变量而其它的变量作为预测变量进行拟合 lasso 回归。

17.3 限制玻尔兹曼机

离散变量的无向马尔科夫网络是很流行的,而且特别地,二值变量的成对马尔科夫网络更普遍.在统计力学领域有时称为 Ising 模型,在机器学习领域称为 玻尔兹曼机 (Boltzmann machines),其中顶点称为“结点 (nodes)”或“单元 (units)”,取值为 0 或 1.

这节我们考虑受神经网络影响的一种特殊的图模型结构,该结构中,单元是按层进行组织的.限制玻尔兹曼机 (RBM) 包含一层可见单元和一层隐藏单元,单层之间没有联系.如果隐藏单元的连接被移除掉,计算条件期望变得很简单

个人注:虽然标准 RBM 使用二值神经元,但也存在许多变体,可以处理不同类型的输入:

变体类型 描述
Gaussian-Bernoulli RBM 可见层为连续实数(高斯分布),隐藏层仍是二值
Gaussian-Gaussian RBM 可见层和隐藏层都为连续变量
Softmax RBM 可见层或隐藏层是 one-hot 多类别状态
ReLU RBM 使用 ReLU 激活而非二值状态,用于更复杂的连续特征建模

这些变体适用于图像、音频、自然语言处理等不同类型的数据。

第十八章 高维问题

(本章不做笔记!)

全书的读书笔记(共6篇)如下:
《统计学习基础》读书笔记之一
《统计学习基础》读书笔记之二
《统计学习基础》读书笔记之三
《统计学习基础》读书笔记之四
《统计学习基础》读书笔记之五
《统计学习基础》读书笔记之六