0%

梯度提升树(Gradient Boosting Trees, GBT 或 GBDT) 是一种强大的机器学习算法,广泛应用于回归、分类等任务中。它结合了多个决策树的预测结果,以构建一个更强的模型。

简单理解

梯度提升树的核心思想是:

逐步构建多个弱学习器(通常是决策树),每一棵新树都试图纠正之前所有树预测的残差(错误)。

工作流程概览

  1. 初始化模型:先用一个简单的模型(通常是常数)作为初始预测值。
  2. 计算残差:残差 = 真实值 − 当前预测值。
  3. 拟合残差:训练一棵新的决策树来拟合残差(即学习错误)。
  4. 更新模型:将这棵新树的输出加权后加入到原模型中。
  5. 重复步骤 2-4:不断迭代,直到达到指定的树数量或误差收敛。
    阅读全文 »

广义线性模型(GLM)和广义可加模型(GAM)都是用于回归分析的统计模型,它们都扩展了线性回归的能力,但在建模方式上有关键的不同。下面是它们的区别联系

一句话区别:

  • GLM 假设:响应变量是一组解释变量的线性组合(经过变换)
  • GAM 假设:响应变量是一组解释变量的非线性函数之和(经过变换)

广义线性模型(GLM)

基本形式

\[ g(\mathbb{E}[Y]) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p \]

  • \(Y\):响应变量(可以是非正态分布,如二项、泊松等)
  • \(x_i\):解释变量(特征)
  • \(g(\cdot)\)链接函数(如 logit、log、identity 等)
  • 模型对解释变量是线性加权组合

常见的 GLM 实例

  • 线性回归:\(g(y) = y\)
  • 逻辑回归:\(g(p) = \log\left(\frac{p}{1-p}\right)\)
  • 泊松回归:\(g(\mu) = \log(\mu)\)

广义可加模型(GAM)

基本形式

\[ g(\mathbb{E}[Y]) = \beta_0 + f_1(x_1) + f_2(x_2) + \dots + f_p(x_p) \]

  • 这里的 \(f_i(x_i)\)未知的非线性平滑函数,通常用样条(splines)估计
  • 每个解释变量的作用可以是非线性的,但函数之间仍然是加性组合
  • 可以看作是 GLM 的非线性扩展

对比表格

特征 GLM GAM
模型结构 线性组合:\(\beta_1 x_1 + \beta_2 x_2\) 非线性函数和:\(f_1(x_1) + f_2(x_2)\)
特征对响应的关系 线性(在链接函数作用下) 非线性
链接函数
灵活性 较低 更高(可适应更复杂的数据结构)
可解释性 一般,非线性函数较难解释
拟合方法 最大似然估计 平滑回归 + 最大似然

举个例子

预测工资(Salary)

GLM(如线性回归):

\[ \log(\text{Salary}) = \beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Education} \]

假设年龄和教育对薪资的影响是线性的。

GAM:

\[ \log(\text{Salary}) = \beta_0 + f_1(\text{Age}) + f_2(\text{Education}) \]

允许年龄对薪资影响是“非线性”的,比如工资在 40 岁左右达到峰值。

总结:

项目 GLM GAM
建模方式 线性关系 非线性加性关系
灵活性 一般 高(可处理非线性)
适合场景 关系近似线性的情况 变量与响应变量关系复杂、非线性的情况

贝叶斯定理(Bayes’ Theorem)是概率论中一个非常重要的定理,用于在已知结果的情况下推断原因(也就是“后验概率”)。

一句话理解

贝叶斯定理告诉我们如何根据已有信息更新对某事件的信念。

数学表达式

对于两个事件 \(A\)\(B\),只要 \(P(B) > 0\),贝叶斯定理公式如下:

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

其中:

  • \(P(A)\)先验概率,事件 A 发生的原始概率;
  • \(P(B|A)\)似然度,在 A 发生的条件下,观察到 B 的概率;
  • \(P(B)\)边缘概率,B 发生的总概率;
  • \(P(A|B)\)后验概率,在 B 发生的前提下,A 发生的概率。
阅读全文 »

二阶导数连续的意义

要求二阶导数连续,其意义主要体现在函数的“平滑性”和“曲率变化”的稳定性上。具体来说:

  1. 函数更光滑 一阶导数连续保证函数的切线方向变化平稳,函数曲线没有尖点或折角; 而二阶导数连续进一步保证了曲率的变化也很平滑,没有突变。这意味着函数弯曲的“加速度”没有突跳,整体形状非常平滑。
  2. 物理上的解释
    • 一阶导数是速度,二阶导数是加速度。二阶导数连续表示加速度变化平缓,没有突然的跳跃。
    • 比如在运动学中,物体的加速度如果突然跳变,意味着存在无限大的力,二阶导数连续则说明力的变化是渐进的。
  3. 数值计算和建模的稳定性 在数值分析和插值(如三次样条插值)中,二阶导数连续是保证结果平滑且逼近真实函数的关键条件,避免出现不自然的波动。
  4. 数学分析上的意义 连续的二阶导数意味着函数属于 \(C^2\) 类,即函数及其一阶、二阶导数均连续,这通常是很多定理(如泰勒展开的准确性、偏微分方程解的正则性等)成立的重要前提。

总结:

要求二阶导数连续,保证函数在二阶导数层面没有“断点”或“跳变”,使得函数的曲率变化平滑,形状光滑自然,且在物理和数学模型中具有良好的解释和稳定性。

统计学中,“样条(spline)”是一种常用的函数逼近工具,用来构建一条平滑的曲线,以拟合数据点或逼近某个未知函数。它在非参数回归、平滑处理、插值、数据可视化等领域非常重要。

样条的核心概念

定义

样条函数(spline function) 是一种分段定义的函数,通常由低阶多项式(例如线性、多项式)在各区间上定义,并在节点处拼接,但要保证一定的连续性和平滑性(如导数连续)。

节点(knots)

节点是定义样条函数时用来分段的关键点。 例如:一个三次样条在每个分段是三次多项式,但在节点处要求函数值、一阶导数和二阶导数都连续。

阅读全文 »

似然函数和条件概率的分别? 这是一个非常重要但容易混淆的问题,尤其是在学习贝叶斯推断时。

  1. 相同点(为什么它们看起来像一样的东西)

两者在数学形式上确实很相似:

\[ P(x \mid \theta) \]

  • 当我们把它当成关于 \(x\) 的函数(已知参数 \(\theta\)):这是条件概率
  • 当我们把它当成关于 \(\theta\) 的函数(已知数据 \(x\)):这是似然函数

所以:

同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!

阅读全文 »

二次规划问题(Quadratic Programming, QP) 从直观理解到数学定义、例子、应用场景等都讲一遍。

一、什么是二次规划

二次规划(Quadratic Programming)是一类 目标函数是二次函数、但 约束是线性 的优化问题。

可以理解为:

“在线性约束条件下,找到一个变量组合,使一个二次函数取得最小(或最大)值”。

阅读全文 »

更具体地说,如果我们没有为参数选择一个共轭先验(见 6.6.1 节),那么 (8.22) 和 (8.23) 中的积分通常在解析上是不可解的,我们就无法以封闭形式计算后验、预测或边际似然。在这种情况下,我们必须借助近似方法。例如,可以采用 随机近似方法,如 马尔可夫链蒙特卡罗(MCMC)(Gilks 等,1996)

  • 机器学习《Python深度学习(Deep Learning with Python, 2/e)》知其然,《机器学习的数学基础(MATHEMATICS FOR MACHINE LEARNING)》知其所以然

推断统计学(Inferential Statistics)是统计学的一个核心分支,它的目标是:基于样本数据对总体(population)作出合理推断或决策。 描述统计对已知样本进行总结与展示,包括均值、方差、图表等 包括估计、检验、模型等,不涉及概率推断。

重点记录

  • oracle不等式
  • 各种残差的概念的理解:方差 偏差 残差 标准误差 标准差 残差偏差(residual deviance
  • 残差在模型诊断中的重要性
  • 小波基底 压缩感知 傅⾥叶滤波
  • 统计学复杂的地方:不同假设对应不同估计和方案选择,所以结果出来需要对假设做检验
    偏差-方差权衡(bias-variance trade off
  • 投资风险就是方差
    阅读全文 »

金融的主干是定价(均衡定价、无套利定价)

金融是研究赚钱的理论,所以重点是研究市场上各类资产的定价,定价又涉及风险和效用的概念。

  • 现实的资产价格(例如股票)由人的情绪来确定;一种投票的机制!!!!
  • 行为经济学:非理性假设;方法论:使用心理学的结论作为起点
  • 科学的尽头是神学,行为经济学是玄学 ,也是学术的宿命
  • VaR 历史模拟法
  • 表见代理:例如老朱不认高管签订的合同就违反了这一点;案例见光大(?)证券的萝卜章事件。
  • 场内市场 场外市场OTC市场
    阅读全文 »