0%

人的力量永远来自心灵,当你的心灵产生力量后,外界的环境看上去也就没想象中的险恶了。

如何放下烦恼

最重要的两点:
对事:心放大事就变小了;
对人:换位思考(理解对方)

以上其实也是一种换个角度看问题的具体化。

人生最重要的三点

  • 学会放下(面子、过去、未来......)
  • 不强求改变任何人
  • 自我意识不能太强(开放心态) 做事心态不要太认真。事情可以认真,但心态不要太认真。
    难得胡涂、游戏人间的态度。
阅读全文 »

1、芝诺悖论

这涉及到潜无限问题,即无限过程无法完成,即1只能无限逼近,不能达到1,乌龟是不能被追上的。为此,潜无限只能假设空间不可以无限分割,这样悖论就不存在了。但实无限认为,无限过程可以完成,即极限可以达到1,乌龟可以追上。现在的实数,极限,微积分都建立在实无限上。对潜无限来说,实数,极限等都不成立,只能无限逼近。 P.S.目前数学界有"0.9999999999.......=1"之证明如下。

阅读全文 »

ESL读书笔记

《The Elements of Statistical Learning - Data Mining, Inference and Prediction - 2nd Edition (ESLII_print4)》

总结

贝叶斯定理

  • 核心是贝叶斯定理,贝叶斯定理在统计中的应用就像牛顿定理在物理学的地位一样。

  • 贝叶斯定理的核心是需要理解似然函数

  • P(A|B) = P(B|A)P(A) / P(B) 这个公式是针对离散的概率。

  • 条件概率的核心是根据三个条件:样本总体的分布+先验信息(P(A))+样本的信息(P(B|A)) , 得到后验概率(分布)(P(A|B))。

  • 贝叶斯推断中,我们需要确定一个在给定参数时数据的采样模型 $(Z;) $(密度函数或者概率质量函数),以及反映我们在得到数据之前对于 \(\theta\) 认知的先验分布 \(\Pr(\theta)\).然后计算后验分布: \[ \Pr(\theta\mid\mathbf Z)=\frac{\Pr(\mathbf Z\mid\theta)\cdot \Pr(\theta)}{\int \Pr(\mathbf Z\mid \theta)\cdot \Pr(\theta)d\theta}\tag{8.23} \] 它表示当我们知道数据后更新对 \(\theta\) 的认知.为了理解这一后验分布,可以从中抽取样本或者通过计算均值或众数来描述它.贝叶斯方法与一般推断方法的不同之处在于,用先验分布来表达知道数据之前的这种不确定性,而且在知道数据之后允许不确定性继续存在,将它表示成后验分布.

  • 自己学会举一个生活中的例子,就说明你理解了。

Tips

  • 自由度;也就是无约束参数的个数?

  • 有偏无偏估计,个人理解例如Lasso这些方法增加了约束条件就是有偏估计?

  • 二次规划问题:二次规划 = 二次目标函数 + 线性约束 + 有限维变量空间的凸优化问题。

  • 广义线性模型类,它们都是以同样的方式扩展为广义可加模型。

  • 怎么判断函数的凸性:对于任意两点之间的连线,总是在函数图像之上或重合

  • 中心化:使得均值为 0; 标准化:使得均值为 0 、方差为 1

  • 为什么引入随机效应后会有如此神奇的疗效?

概念

  • 假设检验:基于小概率的反证法。 提出假设(置信水平),计算抽样的样本统计量,计算概率,判断是否小概率事件(根据置信水平);如果是小概率事件则假设不成立。

  • 标准差:是衡量样本个体的离散程度; 标准误:样本统计量的标准差;是衡量抽样样本水平(样本统计量,均值是其中一个统计量)的离散程度(或者叫抽样误差的程度)。

  • t-检验可用于对回归系数的检验。 t = (样本统计量 - 总体参数)/ 样本统计量标准差(或者叫标准误) t检验本质是:当数据服从t分布的时候,检验某一样本统计量是否与总体参数相等。

  • 条件概率和似然函数的区别 同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!,取决于我们把哪个当变量、哪个当已知!

  • 偏差(bias):真实值 - 预测值(拟合的结果) bias, the amount by which the average of our estimate differs from the true mean。

  • 偏差 (deviance):偏差是用来比较两个不同模型的。我们通过将一个模型的偏差减去另一个模型的偏差来进行比较。 一篇写得很棒的博客,What is deviance? -- by kjytay

  • 有效参数个数 (effective number of parameters)

  • 我们知道了一个变量的分布,要生成一批样本服从这个分布,这个过程就叫采样。 听起来好像很简单,对一些简单的分布函数确实如此,比如,均匀分布、正太分布,但只要分布函数稍微复杂一点,采样这个事情就没那么简单了。为什么要采样在讲具体的采样方法之前,有必要弄清楚采样的目的。为什么要采样呢?有人可能会这样想,样本一般是用来估计分布参数的,现在我都知道分布函数了,还采样干嘛呢?其实采样不只是可以用来估计分布参数,还有其他用途,比如说用来估计分布的期望、高阶动量等。

  • 贝叶斯误差(Bayes Error) 是统计学习理论中的一个核心概念,指的是在已知真实分布的最优分类器下,仍然不可避免的分类错误率。它代表了任何分类器都无法超越的理论最小错误率,是分类问题中的“理论下限”。

  • 独立与不相关 统计上, 连续型随机变量 \(X\)\(Y\) 独立的定义为 \[ p(x, y)=p_X(x)p_Y(y)\;\forall x,y \] 而不相关的定义为 \[ \text {Cov}(X, Y)=0 \] 独立意味着不相关,但反之不对.对于二元正态随机变量,两者等价.

    不相关但不独立的例子: \(X\) 是从区间 \([-1, 1]\) 上均匀分布的随机变量; \(Y = X^2\) 则: \(X\)\(Y\)不相关的(因为 \(E[X] = 0\)\(E[XY] = 0\)) 但 \(X, Y\) 不是独立的,因为知道 \(X\) 的值后,\(Y\) 就完全确定。

  • 马尔科夫蒙特卡洛法 (Markov chain Monte Carlo).我们将要看到吉布斯采样(一个 MCMC 过程)

  • 吉布斯采样(Gibbs Sampling) 吉布斯采样是MCMC的一个特例,吉布斯采样的牛逼之处在于只需要知道条件概率的分布,便可以通过采样得到联合概率分布的样本;核心在七个字:一维一维的采样:

    具体步骤:

    1. 初始化:首先给每个变量一个初始值(通常是随机选择的)。

    2. 循环抽样:依次更新每个变量,具体过程是:

      • 在给定当前所有其他变量的情况下,从该变量的条件分布中抽样。

      • 用新的样本值替代当前变量的值,并更新系统。

    3. 迭代收敛:重复上述抽样过程足够多次,随着迭代进行,样本将会逐渐收敛于目标的联合分布。

  • 自然三次样条 (详见原书 5.2 分段多项式和样条)

    三次样条(cubic spline)是将数据区间划分为若干个小区间,每个区间内用一个三次多项式拟合,且整体函数在区间连接点处保持:

    • 函数值连续(\(C^0\)
    • 一阶导数连续(\(C^1\)
    • 二阶导数连续(\(C^2\)

    自然三次样条(Natural cubic spline)是在此基础上,对两端的两个点添加了“自然”条件\(f''(x_1) = f''(x_n) = 0\)

    也就是说,样条函数在两端的二阶导数为 0,表示在端点处“趋于线性”。

阅读全文 »

广义线性模型(GLM)和广义可加模型(GAM)都是用于回归分析的统计模型,它们都扩展了线性回归的能力,但在建模方式上有关键的不同。下面是它们的区别联系

一句话区别:

  • GLM 假设:响应变量是一组解释变量的线性组合(经过变换)
  • GAM 假设:响应变量是一组解释变量的非线性函数之和(经过变换)

广义线性模型(GLM)

基本形式

\[ g(\mathbb{E}[Y]) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p \]

  • \(Y\):响应变量(可以是非正态分布,如二项、泊松等)
  • \(x_i\):解释变量(特征)
  • \(g(\cdot)\)链接函数(如 logit、log、identity 等)
  • 模型对解释变量是线性加权组合

常见的 GLM 实例

  • 线性回归:\(g(y) = y\)
  • 逻辑回归:\(g(p) = \log\left(\frac{p}{1-p}\right)\)
  • 泊松回归:\(g(\mu) = \log(\mu)\)

广义可加模型(GAM)

基本形式

\[ g(\mathbb{E}[Y]) = \beta_0 + f_1(x_1) + f_2(x_2) + \dots + f_p(x_p) \]

  • 这里的 \(f_i(x_i)\)未知的非线性平滑函数,通常用样条(splines)估计
  • 每个解释变量的作用可以是非线性的,但函数之间仍然是加性组合
  • 可以看作是 GLM 的非线性扩展

对比表格

特征 GLM GAM
模型结构 线性组合:\(\beta_1 x_1 + \beta_2 x_2\) 非线性函数和:\(f_1(x_1) + f_2(x_2)\)
特征对响应的关系 线性(在链接函数作用下) 非线性
链接函数
灵活性 较低 更高(可适应更复杂的数据结构)
可解释性 一般,非线性函数较难解释
拟合方法 最大似然估计 平滑回归 + 最大似然

举个例子

预测工资(Salary)

GLM(如线性回归):

\[ \log(\text{Salary}) = \beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Education} \]

假设年龄和教育对薪资的影响是线性的。

GAM:

\[ \log(\text{Salary}) = \beta_0 + f_1(\text{Age}) + f_2(\text{Education}) \]

允许年龄对薪资影响是“非线性”的,比如工资在 40 岁左右达到峰值。

总结:

项目 GLM GAM
建模方式 线性关系 非线性加性关系
灵活性 一般 高(可处理非线性)
适合场景 关系近似线性的情况 变量与响应变量关系复杂、非线性的情况

贝叶斯定理(Bayes’ Theorem)是概率论中一个非常重要的定理,用于在已知结果的情况下推断原因(也就是“后验概率”)。

一句话理解

贝叶斯定理告诉我们如何根据已有信息更新对某事件的信念。

数学表达式

对于两个事件 \(A\)\(B\),只要 \(P(B) > 0\),贝叶斯定理公式如下:

\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]

其中:

  • \(P(A)\)先验概率,事件 A 发生的原始概率;
  • \(P(B|A)\)似然度,在 A 发生的条件下,观察到 B 的概率;
  • \(P(B)\)边缘概率,B 发生的总概率;
  • \(P(A|B)\)后验概率,在 B 发生的前提下,A 发生的概率。
阅读全文 »

二阶导数连续的意义

要求二阶导数连续,其意义主要体现在函数的“平滑性”和“曲率变化”的稳定性上。具体来说:

  1. 函数更光滑 一阶导数连续保证函数的切线方向变化平稳,函数曲线没有尖点或折角; 而二阶导数连续进一步保证了曲率的变化也很平滑,没有突变。这意味着函数弯曲的“加速度”没有突跳,整体形状非常平滑。
  2. 物理上的解释
    • 一阶导数是速度,二阶导数是加速度。二阶导数连续表示加速度变化平缓,没有突然的跳跃。
    • 比如在运动学中,物体的加速度如果突然跳变,意味着存在无限大的力,二阶导数连续则说明力的变化是渐进的。
  3. 数值计算和建模的稳定性 在数值分析和插值(如三次样条插值)中,二阶导数连续是保证结果平滑且逼近真实函数的关键条件,避免出现不自然的波动。
  4. 数学分析上的意义 连续的二阶导数意味着函数属于 \(C^2\) 类,即函数及其一阶、二阶导数均连续,这通常是很多定理(如泰勒展开的准确性、偏微分方程解的正则性等)成立的重要前提。

总结:

要求二阶导数连续,保证函数在二阶导数层面没有“断点”或“跳变”,使得函数的曲率变化平滑,形状光滑自然,且在物理和数学模型中具有良好的解释和稳定性。

统计学中,“样条(spline)”是一种常用的函数逼近工具,用来构建一条平滑的曲线,以拟合数据点或逼近某个未知函数。它在非参数回归、平滑处理、插值、数据可视化等领域非常重要。

样条的核心概念

定义

样条函数(spline function) 是一种分段定义的函数,通常由低阶多项式(例如线性、多项式)在各区间上定义,并在节点处拼接,但要保证一定的连续性和平滑性(如导数连续)。

节点(knots)

节点是定义样条函数时用来分段的关键点。 例如:一个三次样条在每个分段是三次多项式,但在节点处要求函数值、一阶导数和二阶导数都连续。

阅读全文 »

似然函数和条件概率的分别? 这是一个非常重要但容易混淆的问题,尤其是在学习贝叶斯推断时。

  1. 相同点(为什么它们看起来像一样的东西)

两者在数学形式上确实很相似:

\[ P(x \mid \theta) \]

  • 当我们把它当成关于 \(x\) 的函数(已知参数 \(\theta\)):这是条件概率
  • 当我们把它当成关于 \(\theta\) 的函数(已知数据 \(x\)):这是似然函数

所以:

同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!

阅读全文 »

二次规划问题(Quadratic Programming, QP) 从直观理解到数学定义、例子、应用场景等都讲一遍。

一、什么是二次规划

二次规划(Quadratic Programming)是一类 目标函数是二次函数、但 约束是线性 的优化问题。

可以理解为:

“在线性约束条件下,找到一个变量组合,使一个二次函数取得最小(或最大)值”。

阅读全文 »

推断统计学(Inferential Statistics)是统计学的一个核心分支,它的目标是:基于样本数据对总体(population)作出合理推断或决策。 描述统计对已知样本进行总结与展示,包括均值、方差、图表等 包括估计、检验、模型等,不涉及概率推断。

重点记录

  • oracle不等式
  • 各种残差的概念的理解:方差 偏差 残差 标准误差 标准差 残差偏差(residual deviance
  • 残差在模型诊断中的重要性
  • 小波基底 压缩感知 傅⾥叶滤波
  • 统计学复杂的地方:不同假设对应不同估计和方案选择,所以结果出来需要对假设做检验
    偏差-方差权衡(bias-variance trade off
  • 投资风险就是方差
    阅读全文 »