0%

读书笔记之五:向量微积分

5、向量微积分

Vector Calculus

函数的梯度方向指向最陡峭的上升方向,而不是导数本身。导数是标量,没有方向性;梯度才是决定函数与曲面上升方向的向量。理解这一点有助于区分函数与其图像(曲面)之间的关系。详见《导数和梯度的概念.md》

5.1 泰勒级数

泰勒级数是函数\(f\)的无穷项和的表示。这些项是用\(f\)的导数来确定的。多项式逼近函数的泰勒级数

泰勒级数

对于一个平滑的函数 $ f ^{},  f: $ ($ f ^{} $ 表示 \(f\) 连续且可微无穷多次), \(f\)\(x_0\) 的泰勒级数(Taylor series)定义为:
\[ T_{\infty}(x) = \sum_{k=0}^{\infty} \frac{f^{(k)}\left(x_{0}\right)}{k !} \left(x - x_{0}\right)^{k} \]

当 $ x_0 = 0 $ 时,我们得到麦克劳林级数(Maclaurin series),它是泰勒级数的特殊实例。 如果 $ f(x) = T_{}(x) $,那么 \(f\) 称为解析的(analytic)。

阅读全文 »

读书笔记之六:概率与分布

6、概率与分布

Probability and Distributions

概率论可以看作是布尔逻辑的推广。在机器学习的背景下,它经常以这种方式应用于自动推理系统的形式化设计。

在机器学习和统计学中,有两种主要的概率解释:贝叶斯主义和频率主义(Bishop, 2006;Efron and Hastie, 2016)。贝叶斯主义使用概率来指定用户对事件的不确定性程度。它有时被称为“主观概率”或“置信程度”。频率主义则考虑感兴趣的事件与所发生事件的总数的相对频率。一个事件的概率定义为当发生事件的总数趋于无限时,该事件的相对频率。详细例子见《概率中贝叶斯派与经典频率主义区别例子.md》

贝叶斯主义和频率主义两者的核心区别在于:频率主义把参数视为固定值,而贝叶斯主义把参数视为随机变量,因此需要引入先验知识。两者的核心区别确实与“是否考虑先验知识”相关,但更根本的区别在于它们对“参数”的哲学认知不同:固定值 vs. 随机变量。

阅读全文 »

读书笔记之七:连续优化

7、连续优化

Continuous Optimization

由于机器学习算法是在计算机上实现的,其中许多数学方程式都表示为数值优化方法。本章描述了训练机器学习模型的基本数值方法。训练机器学习模型通常归结为找到一组好的参数。“好”的概念是由目标函数或概率模型来决定的,我们将在本书的第二部分看到这些例子。给定一个目标函数,使用优化算法来寻找最佳值。\(\mathbb{R}^{D}\) 中考虑数据和模型,所以我们面临的优化问题是连续优化问题,而不是离散变量的组合优化问题。

一般情况下,机器学习中的大多数目标函数都是要被最小化的,即最优值就是最小值。直观上,梯度为目标函数每个点的上坡方向,而我们的目的是下坡(与梯度方向相反),希望找到最深的点。

阅读全文 »

读书笔记之二:第3章-第4章

第三章:线性回归方法; 第四章:线性分类方法。

第三章 线性回归方法

总结:

  • 对于任意一个有限维的矩阵(实数或复数矩阵),它的行秩 = 列秩。这个值也被称为矩阵的秩(rank);
  • 标准化因数或者 Z-分数,\(z_j\) 分布为 \(t_{N-p-1}\)(自由度为 \(N-p-1\)\(t\) 分布);
  • \(t\) 分布和标准正态分布在尾概率之间的差异随着样本规模增大可以忽略;
  • \(F\) 统计量衡量了在大模型中每个增加的系数对残差平方和的改变;
  • \(N\) 足够大时,\(F_{p_1-p_0,N-p_1-1}\) 近似 \(\chi^2_{p_1-p_0}\)
阅读全文 »

读书笔记之三:第5章-第7章

第五章:基函数扩展与正则化; 第六章:核平滑方法; 第七章:模型评估与选择。

第五章 基函数扩展与正则化

  • 据说三次样条是人眼看不出结点不连续的最低阶样条.很少有更好的理由去选择更高次的样条,除非对光滑的微分感兴趣.
  • 固定结点的样条也称作 回归样条 (regression splines).我们需要选择样条的阶数,结点的个数以及它们的位置.一种简单方式是用基函数或自由度来参量化样条族,并用观测 \(x_i\) 来确定结点的位置.
  • 自然三次样条 (natural cubic spline) 添加额外的限制,具体地,令边界结点之外的函数是线性的.
  • 高维特征的预处理是非常普遍的而且对于改善学习算法的效果是很有效的。
阅读全文 »

读书笔记之四:第8章-第10章

第八章:模型推断与平均化; 第九章:加性模型、树模型及相关方法; 第十章:提升方法与加性树模型。

第八章 模型推断与平均化

本书的大部分章节中,对于回归而言,模型的拟合(学习)通过最小化平方和实现;或对于分类而言,通过最小化交叉熵实现.事实上,这两种最小化都是用极大似然来拟合的实例

阅读全文 »

读书笔记之五:第11章-第13章

第十一章:神经网络; 第十二章:支持向量机与灵活判别方法; 第十三章:原型方法与最近邻算法。

第十一章 神经网络

这章中我们描述一类学习方法,它是基于在不同的领域(统计和人工智能)中独立发展起来但本质上相同的模型.中心思想是提取输入的线性组合作为导出特征 (derived features),然后将目标看成特征的非线性函数进行建模.这是一个很有效的学习方法,在许多领域都有广泛应用.我们首先讨论投影寻踪模型 (projection pursuit model),这是在半参统计和光滑化领域中发展出来的.本章的剩余部分集中讨论神经网络模型.

阅读全文 »

读书笔记之六:第14章-第18章

第十四章:无监督学习 ; 第十五章:随机森林; 第十六章:集成学习; 第十七章:无向图模型; 第十八章: 高维问题。

第十四章 无监督学习

监督学习中,有一个明确的成功或不成功的量度,因此可用于判断特定情况下的充分性 (adequacy),并比较不同方法在各种情况下的有效性 (effectiveness).成功的损失直接用在联合分布 \(\Pr(X,Y)\) 上的期望损失来衡量.这个可以用各种方式来衡量,包括交叉验证.在非监督学习中,没有这些直接衡量成功的量度.从大部分非监督学习的算法的输出中评估推断的有效性是很难确定的.必须诉诸于启发式变量 (heuristic arguments),在监督学习也经常使用,这不仅可以激励 (motivating) 算法,而且为了评价结果的质量.因为有效性是主观问题,不能直接加以证实,这种不舒服 (unconfortable) 的情形导致提出的方法激增。

阅读全文 »

金融的主干是定价(均衡定价、无套利定价)

金融是研究赚钱的理论,所以重点是研究市场上各类资产的定价,定价又涉及风险和效用的概念。

  • 现实的资产价格(例如股票)由人的情绪来确定;一种投票的机制!!!!
  • 行为经济学:非理性假设;方法论:使用心理学的结论作为起点
  • 科学的尽头是神学,行为经济学是玄学 ,也是学术的宿命
  • VaR 历史模拟法
  • 表见代理:例如老朱不认高管签订的合同就违反了这一点;案例见光大(?)证券的萝卜章事件。
  • 场内市场 场外市场OTC市场
    阅读全文 »

本计划酝酿一个有诗意、有新意的标题,但是,就像洗尽铅华的人生,朴素、简单便是美,也更能直达本意,故俗套的沿用《我的2025年终总结》。

年终总结写过很多,学校的、单位的、个人的,但这次算是真正意义上自发的为自己而写。

作为一个不爱拍照、不爱发朋友圈的 I 人,真正留下的、有据可查的记忆实在太少。印象里,抽屉中除了大学时期的书信、明信片(当年流行的节日祝福信物),还有年轻时的一些照片,也没其它可以睹物思人的东西了。电子化时代,总觉得,就像记忆发生断片一样,留下了一段空白。不过,一切都是过目烟云,再怎么样,也终归物是人非。

阅读全文 »