Trello看板整理
人的力量永远来自心灵,当你的心灵产生力量后,外界的环境看上去也就没想象中的险恶了。
如何放下烦恼
最重要的两点:
对事:心放大事就变小了;
对人:换位思考(理解对方)
以上其实也是一种换个角度看问题的具体化。
人生最重要的三点
- 学会放下(面子、过去、未来......)
- 不强求改变任何人
- 自我意识不能太强(开放心态)
做事心态不要太认真。事情可以认真,但心态不要太认真。
难得胡涂、游戏人间的态度。
人的力量永远来自心灵,当你的心灵产生力量后,外界的环境看上去也就没想象中的险恶了。
最重要的两点:
对事:心放大事就变小了;
对人:换位思考(理解对方)
以上其实也是一种换个角度看问题的具体化。
1、芝诺悖论
这涉及到潜无限问题,即无限过程无法完成,即1只能无限逼近,不能达到1,乌龟是不能被追上的。为此,潜无限只能假设空间不可以无限分割,这样悖论就不存在了。但实无限认为,无限过程可以完成,即极限可以达到1,乌龟可以追上。现在的实数,极限,微积分都建立在实无限上。对潜无限来说,实数,极限等都不成立,只能无限逼近。 P.S.目前数学界有"0.9999999999.......=1"之证明如下。
ESL读书笔记
《The Elements of Statistical Learning - Data Mining, Inference and Prediction - 2nd Edition (ESLII_print4)》
核心是贝叶斯定理,贝叶斯定理在统计中的应用就像牛顿定理在物理学的地位一样。
贝叶斯定理的核心是需要理解似然函数。
P(A|B) = P(B|A)P(A) / P(B) 这个公式是针对离散的概率。
条件概率的核心是根据三个条件:样本总体的分布+先验信息(P(A))+样本的信息(P(B|A)) , 得到后验概率(分布)(P(A|B))。
贝叶斯推断中,我们需要确定一个在给定参数时数据的采样模型 $(Z;) $(密度函数或者概率质量函数),以及反映我们在得到数据之前对于 \(\theta\) 认知的先验分布 \(\Pr(\theta)\).然后计算后验分布: \[ \Pr(\theta\mid\mathbf Z)=\frac{\Pr(\mathbf Z\mid\theta)\cdot \Pr(\theta)}{\int \Pr(\mathbf Z\mid \theta)\cdot \Pr(\theta)d\theta}\tag{8.23} \] 它表示当我们知道数据后更新对 \(\theta\) 的认知.为了理解这一后验分布,可以从中抽取样本或者通过计算均值或众数来描述它.贝叶斯方法与一般推断方法的不同之处在于,用先验分布来表达知道数据之前的这种不确定性,而且在知道数据之后允许不确定性继续存在,将它表示成后验分布.
自己学会举一个生活中的例子,就说明你理解了。
自由度;也就是无约束参数的个数?
有偏无偏估计,个人理解例如Lasso这些方法增加了约束条件就是有偏估计?
二次规划问题:二次规划 = 二次目标函数 + 线性约束 + 有限维变量空间的凸优化问题。
广义线性模型类,它们都是以同样的方式扩展为广义可加模型。
怎么判断函数的凸性:对于任意两点之间的连线,总是在函数图像之上或重合。
中心化:使得均值为 0; 标准化:使得均值为 0 、方差为 1
为什么引入随机效应后会有如此神奇的疗效?
假设检验:基于小概率的反证法。 提出假设(置信水平),计算抽样的样本统计量,计算概率,判断是否小概率事件(根据置信水平);如果是小概率事件则假设不成立。
标准差:是衡量样本个体的离散程度; 标准误:样本统计量的标准差;是衡量抽样样本水平(样本统计量,均值是其中一个统计量)的离散程度(或者叫抽样误差的程度)。
t-检验可用于对回归系数的检验。 t = (样本统计量 - 总体参数)/ 样本统计量标准差(或者叫标准误) t检验本质是:当数据服从t分布的时候,检验某一样本统计量是否与总体参数相等。
条件概率和似然函数的区别 同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!,取决于我们把哪个当变量、哪个当已知!
偏差(bias):真实值 - 预测值(拟合的结果) bias, the amount by which the average of our estimate differs from the true mean。
偏差 (deviance):偏差是用来比较两个不同模型的。我们通过将一个模型的偏差减去另一个模型的偏差来进行比较。 一篇写得很棒的博客,What is deviance? -- by kjytay
有效参数个数 (effective number of parameters)
我们知道了一个变量的分布,要生成一批样本服从这个分布,这个过程就叫采样。 听起来好像很简单,对一些简单的分布函数确实如此,比如,均匀分布、正太分布,但只要分布函数稍微复杂一点,采样这个事情就没那么简单了。为什么要采样在讲具体的采样方法之前,有必要弄清楚采样的目的。为什么要采样呢?有人可能会这样想,样本一般是用来估计分布参数的,现在我都知道分布函数了,还采样干嘛呢?其实采样不只是可以用来估计分布参数,还有其他用途,比如说用来估计分布的期望、高阶动量等。
贝叶斯误差(Bayes Error) 是统计学习理论中的一个核心概念,指的是在已知真实分布的最优分类器下,仍然不可避免的分类错误率。它代表了任何分类器都无法超越的理论最小错误率,是分类问题中的“理论下限”。
独立与不相关 统计上, 连续型随机变量 \(X\) 与 \(Y\) 独立的定义为 \[ p(x, y)=p_X(x)p_Y(y)\;\forall x,y \] 而不相关的定义为 \[ \text {Cov}(X, Y)=0 \] 独立意味着不相关,但反之不对.对于二元正态随机变量,两者等价.
不相关但不独立的例子: \(X\) 是从区间 \([-1, 1]\) 上均匀分布的随机变量; \(Y = X^2\) 则: \(X\) 和 \(Y\) 是不相关的(因为 \(E[X] = 0\),\(E[XY] = 0\)) 但 \(X, Y\) 不是独立的,因为知道 \(X\) 的值后,\(Y\) 就完全确定。
马尔科夫蒙特卡洛法 (Markov chain Monte Carlo).我们将要看到吉布斯采样(一个 MCMC 过程)
吉布斯采样(Gibbs Sampling) 吉布斯采样是MCMC的一个特例,吉布斯采样的牛逼之处在于只需要知道条件概率的分布,便可以通过采样得到联合概率分布的样本;核心在七个字:一维一维的采样:
具体步骤:
初始化:首先给每个变量一个初始值(通常是随机选择的)。
循环抽样:依次更新每个变量,具体过程是:
在给定当前所有其他变量的情况下,从该变量的条件分布中抽样。
用新的样本值替代当前变量的值,并更新系统。
迭代收敛:重复上述抽样过程足够多次,随着迭代进行,样本将会逐渐收敛于目标的联合分布。
自然三次样条 (详见原书 5.2 分段多项式和样条)
三次样条(cubic spline)是将数据区间划分为若干个小区间,每个区间内用一个三次多项式拟合,且整体函数在区间连接点处保持:
自然三次样条(Natural cubic spline)是在此基础上,对两端的两个点添加了“自然”条件:\(f''(x_1) = f''(x_n) = 0\)
也就是说,样条函数在两端的二阶导数为 0,表示在端点处“趋于线性”。
广义线性模型(GLM)和广义可加模型(GAM)都是用于回归分析的统计模型,它们都扩展了线性回归的能力,但在建模方式上有关键的不同。下面是它们的区别和联系:
一句话区别:
广义线性模型(GLM)
基本形式:
\[ g(\mathbb{E}[Y]) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p \]
常见的 GLM 实例:
广义可加模型(GAM)
基本形式:
\[ g(\mathbb{E}[Y]) = \beta_0 + f_1(x_1) + f_2(x_2) + \dots + f_p(x_p) \]
对比表格
特征 | GLM | GAM |
---|---|---|
模型结构 | 线性组合:\(\beta_1 x_1 + \beta_2 x_2\) | 非线性函数和:\(f_1(x_1) + f_2(x_2)\) |
特征对响应的关系 | 线性(在链接函数作用下) | 非线性 |
链接函数 | 有 | 有 |
灵活性 | 较低 | 更高(可适应更复杂的数据结构) |
可解释性 | 好 | 一般,非线性函数较难解释 |
拟合方法 | 最大似然估计 | 平滑回归 + 最大似然 |
举个例子:
预测工资(Salary)
GLM(如线性回归):
\[ \log(\text{Salary}) = \beta_0 + \beta_1 \cdot \text{Age} + \beta_2 \cdot \text{Education} \]
假设年龄和教育对薪资的影响是线性的。
GAM:
\[ \log(\text{Salary}) = \beta_0 + f_1(\text{Age}) + f_2(\text{Education}) \]
允许年龄对薪资影响是“非线性”的,比如工资在 40 岁左右达到峰值。
总结:
项目 | GLM | GAM |
---|---|---|
建模方式 | 线性关系 | 非线性加性关系 |
灵活性 | 一般 | 高(可处理非线性) |
适合场景 | 关系近似线性的情况 | 变量与响应变量关系复杂、非线性的情况 |
贝叶斯定理(Bayes’ Theorem)是概率论中一个非常重要的定理,用于在已知结果的情况下推断原因(也就是“后验概率”)。
贝叶斯定理告诉我们如何根据已有信息更新对某事件的信念。
对于两个事件 \(A\) 和 \(B\),只要 \(P(B) > 0\),贝叶斯定理公式如下:
\[ P(A|B) = \frac{P(B|A) \cdot P(A)}{P(B)} \]
其中:
二阶导数连续的意义
要求二阶导数连续,其意义主要体现在函数的“平滑性”和“曲率变化”的稳定性上。具体来说:
总结:
要求二阶导数连续,保证函数在二阶导数层面没有“断点”或“跳变”,使得函数的曲率变化平滑,形状光滑自然,且在物理和数学模型中具有良好的解释和稳定性。
在统计学中,“样条(spline)”是一种常用的函数逼近工具,用来构建一条平滑的曲线,以拟合数据点或逼近某个未知函数。它在非参数回归、平滑处理、插值、数据可视化等领域非常重要。
定义
样条函数(spline function) 是一种分段定义的函数,通常由低阶多项式(例如线性、多项式)在各区间上定义,并在节点处拼接,但要保证一定的连续性和平滑性(如导数连续)。
节点(knots)
节点是定义样条函数时用来分段的关键点。 例如:一个三次样条在每个分段是三次多项式,但在节点处要求函数值、一阶导数和二阶导数都连续。
似然函数和条件概率的分别? 这是一个非常重要但容易混淆的问题,尤其是在学习贝叶斯推断时。
两者在数学形式上确实很相似:
\[ P(x \mid \theta) \]
所以:
同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!
二次规划问题(Quadratic Programming, QP) 从直观理解到数学定义、例子、应用场景等都讲一遍。
一、什么是二次规划?
二次规划(Quadratic Programming)是一类 目标函数是二次函数、但 约束是线性 的优化问题。
可以理解为:
“在线性约束条件下,找到一个变量组合,使一个二次函数取得最小(或最大)值”。
推断统计学(Inferential Statistics)是统计学的一个核心分支,它的目标是:基于样本数据对总体(population)作出合理推断或决策。 描述统计对已知样本进行总结与展示,包括均值、方差、图表等 包括估计、检验、模型等,不涉及概率推断。