统计学的学习笔记
以下是阅读统计学书籍的一些心得和摘录。
世界的不确定性
科学家们开始改变思维:能找到现象背后的因果模型更好,因为这毕竟是一劳永逸的事情,很好的体现了上帝的意志。
但是,在这个每个突破的都需要漫长的时间里,我们可以通过大数据思维,在基于不确定的前提下,借助数据量的突破性增长、借助计算机能力的突破性发展,以及人类在人工智能方面的飞跃(Alphago战胜了李世石),通过数据的相关性来掌握事物的规律,然后基于机器学习,不断优化模型。这就是大数据思维的核心。
用不确定的眼光看待世界,再用信息来消除这种不确定性,是大数据解决智能问题的本质。(从确定性到相关性) 世界的不确定性,通过统计、大数据来模拟近似。
几千年来,我们人类的只是都是建立在归纳法之上,归纳法隐含的假设就是『未来将继续和过去一样』,换句话说应该叫连续性假设。
与机械思维是建立在一种确定性的基础上所截然不同的是,信息论完全是建立在不确定性基础上
知识就像圆,你懂得越多,无知就越多。 因为这个世界是不确定性为主导的。(针对人的有限性)
吾生也有涯,而知也无涯,以有涯随无涯,殆已。
肖申克的救赎,工作和监狱,确定性和自由的不确定性。 (出狱又回来)
统计就是数学物理化
重视经验和数据,而非严格逻辑推理概率和统计:概率是统计的工具,统计是分析数据的方法。
科学的分类
科学就是在表面的变化中找不变;
硬科学就是找因果关系,包括公式、规律、原理、模式等;
软科学就是找相关性,例如统计学、大数据科学、AI等;推断统计学和描述统计
推断统计学(Inferential Statistics)是统计学的一个核心分支,它的目标是:基于样本数据对总体(population)作出合理推断或决策。
描述统计学对已知样本进行总结与展示,包括均值、方差、图表等;包括估计、检验、模型等,不涉及概率推断。各种残差的概念的理解:方差 偏差 残差 标准误差 标准差 残差偏差(residual deviance)。
模型选择:偏差-方差权衡(bias-variance trade off)
投资风险就是方差
响应变量的对数转换的最主要目的,是让残差常数化。
统计学复杂的地方:不同假设对应不同估计和方案选择,所以结果出来需要对假设做检验。
模型建模三步曲:
- 假设
- 估计或拟合、推断(一种系数显著性检验,例如t检验)
- 诊断假设合理性(各种检验技术,例如F检验)
- 假设
假设检验:基于小概率的反证法。
提出假设(置信水平),计算抽样的样本统计量,计算概率,判断是否小概率事件(根据置信水平);如果是小概率事件则假设不成立。标准差(Standard Deviation):是衡量样本个体的离散程度;
标准误(Standard Error):样本统计量的标准差;是衡量抽样样本水平(样本统计量,均值是其中一个统计量)的离散程度(或者叫抽样误差的程度)。t-检验可用于对回归系数的检验。
t = (样本统计量 - 总体参数)/ 样本统计量标准差(或者叫标准误)
t检验本质是:当数据服从t分布的时候,检验某一样本统计量是否与总体参数相等。⼴义线性模型(GLM)和 广义可加模型(GAM)
- ⼴义线性模型(GLM)
这些模型使⽤指数族分布的成员(如伯努利、泊松和⾼斯分布等)来描述响应变量。
基本形式:
\[ g(\mathbb{E}[Y]) = \beta_0 + \beta_1 x_1 + \beta_2 x_2 + \dots + \beta_p x_p \]- 广义可加模型(GAM)
基本形式:
\[ g(\mathbb{E}[Y]) = \beta_0 + f_1(x_1) + f_2(x_2) + \dots + f_p(x_p) \]
- 对比表格
特征 GLM GAM 模型结构 线性组合:\(\beta_1 x_1 + \beta_2 x_2\) 非线性函数和:\(f_1(x_1) + f_2(x_2)\) 特征对响应的关系 线性(在链接函数作用下) 非线性 链接函数 有 有 灵活性 较低 更高(可适应更复杂的数据结构) 可解释性 好 一般,非线性函数较难解释 拟合方法 最大似然估计 平滑回归 + 最大似然 - ⼴义线性模型(GLM)
不同统计量的定义和背后的本质以及其对应的某一种的情况。
等高线是降维作用
求切线,先求法线,通过升维函数的梯度求。
Cauchy-Schwarz 不等式说明两个向量的内积的绝对值小于等于它们长度的乘积。只有当两个向量共线时(即线性相关),等号成立。
曼哈顿距离就是\(\mathcal l_1\)范数
上采样、下采样;过采样、欠采样
- 上采样&下采样
对于CV领域来说,可以理解为放大图片和缩小图片,将原始图片放大就是上采样,将多个像素点合成一个从而缩小图片就是下采样,所以池化操作就可以理解为一种下采样。如果想进一步了解图像领域的上采样和下采样,可以参照:图像的上采样(upsampling)与下采样(subsampled)
对于非cv领域能,我觉得这个词用得少一点,如果是特征增多,一般称为特征构造,如果是选择部分特征,一般说特征选择。
- 过采样&欠采样
这主要是针对不平衡的数据集做的一些操作。
欠采样(undersampling):当数据不平衡的时,比如对于一个只用0和1的二分类问题,样本标签1有10000个数据,样本标签0有6000个数据时,为了保持样本数目的平衡,可以选择减少标签1的数据量,这个过程就叫做欠采样。
过采样(oversampling)减少数据量固然可以达到以上效果,并且在一定程度上防止过拟合,但是这也牺牲了数据,因此存在另一种增加样本的采样方法,也就是增加标签0的样本数。
- 上采样&下采样
统计的流派
对于人类来讲,一个能把英语翻译成汉语的人,必定能很好理解这两种语言。这就是直觉的作用。在人工智能领域,包括自然语言处理领域,后来把这样的方法论称作“鸟飞派”,也就是看看鸟是怎么飞的,就能模仿鸟造出飞机,而不需要了解空气动力学。事实上我们知道,怀特兄弟发明飞机靠的是空气动力学而不是仿生学。
自然语言的处理从基于规则方法的传统(语言和这个世界一样,不规则、不确定性占了很大比例),现在转入了统计的语言处理方法。
这里有一个很好的例子,来自于腾讯搜索部门。最早的语言模型是使用《人民日报》的语料训练的,因为开发者认为这些语料干净、无噪音。但是实际的效果就比较差,经常出现搜索串和网页不匹配的例子。后来改用网页的数据,尽管他们有很多的噪音,但是因为训练数据和应用一致,搜索质量反而好。
分词的二义性是语言歧义性的一部分,1990年前后,当时清华大学电子工程系工作的郭进博士用统计语言模型成功解决了分词二义性的问题,将汉语分词的错误率降低了一个数量级。
就像飞机不需要拍动翅膀。
今天几乎所有的科学家都不坚持『机器要像人一样思考才能获得智能』,但是很多门外汉在谈到人工智能时依然想象着『机器在像我们那样思考。』...机器智能最重要的是能够解决人脑所能解决的问题,而不是在于是否需要采用和人一样的方法。微积分
求导是切线斜率;求积分是求面积
微积分的本质是研究关于连续变化的问题
数学:普及,平民化,现在又抽象化了,走向精英阶层风险模型
统计模型:目前主要使用,根据历史交易中的欺诈交易信息训练分类算法,然后将经过采集加工后的交易信息输入分类算法,即可得到交易风险分值。由于统计模型采用模糊识别,并不精确匹配欺诈类型规则,因为对新出现的交易欺诈有一定的预测性。量子物理
什么是量子物理?物理学家们所测量的能量、电荷、角动量等都是量子化的。它们并非无限可分的;能量、电荷等等全部存在一个最小单位。
所以说,量子物理和布尔运算一样,都是离散的思想。数据、信息、知识
数据(原料)-> 信息 -> 知识迭代和递归的区别
迭代的含义: 从“编程之美”的角度看,可以借用一句非常经典的话:“迭代是人,递归是神!”来从宏观上对二者进行把握。
迭代是将输出做为输入,再次进行处理。从计算机角度讲,递归是迭代的特例。https://www.zhihu.com/question/20278387递归 = 迭代 + 调用栈
任何递归程序,理论上都可以改写成迭代; 递归只是把“中间状态”交给了系统栈来管理。
递归不是“更高级”,只是“更抽象”。
能用迭代稳定解决的,工程上通常不用递归
CNN 卷积核 完全由训练过程自动学习,不需要人工设计
抽样分布:关注统计量的抽样分布,而不是原数据的分布(数据分布) ;自助法
自由度;也就是无约束参数的个数?详见《如何理解统计学中的自由度.md》
有偏、无偏估计,详见《统计学中的有偏估计与无偏估计.md》
二次规划问题:二次规划 = 二次目标函数 + 线性约束 + 有限维变量空间的凸优化问题。
中心化:使得均值为 0; 标准化:使得均值为 0 、方差为 1
为什么引入随机效应后会有如此神奇的疗效?
条件概率和似然函数的区别
同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是同一个表达式 \(P(x \mid \theta)\),既可以是条件概率,也可以是似然函数,取决于我们把哪个当变量、哪个当已知!,取决于我们把哪个当变量、哪个当已知!偏差(bias):真实值 - 预测值(拟合的结果)
bias, the amount by which the average of our estimate differs from the true mean。偏差 (deviance):偏差是用来比较两个不同模型的。我们通过将一个模型的偏差减去另一个模型的偏差来进行比较。
一篇写得很棒的博客,What is deviance? -- by kjytay有效参数个数 (effective number of parameters)
我们知道了一个变量的分布,要生成一批样本服从这个分布,这个过程就叫采样。
听起来好像很简单,对一些简单的分布函数确实如此,比如,均匀分布、正太分布,但只要分布函数稍微复杂一点,采样这个事情就没那么简单了。为什么要采样在讲具体的采样方法之前,有必要弄清楚采样的目的。为什么要采样呢?有人可能会这样想,样本一般是用来估计分布参数的,现在我都知道分布函数了,还采样干嘛呢?其实采样不只是可以用来估计分布参数,还有其他用途,比如说用来估计分布的期望、高阶动量等。贝叶斯误差(Bayes Error) 是统计学习理论中的一个核心概念,指的是在已知真实分布的最优分类器下,仍然不可避免的分类错误率。它代表了任何分类器都无法超越的理论最小错误率,是分类问题中的“理论下限”。
详见《统计学中的贝叶斯误差.md》马尔科夫蒙特卡洛法 (Markov chain Monte Carlo).我们将要看到吉布斯采样(一个 MCMC 过程)
吉布斯采样(Gibbs Sampling)
吉布斯采样是MCMC的一个特例,吉布斯采样的牛逼之处在于只需要知道条件概率的分布,便可以通过采样得到联合概率分布的样本;核心在七个字:一维一维的采样:具体步骤:
初始化:首先给每个变量一个初始值(通常是随机选择的)。
循环抽样:依次更新每个变量,具体过程是:
在给定当前所有其他变量的情况下,从该变量的条件分布中抽样。
用新的样本值替代当前变量的值,并更新系统。
迭代收敛:重复上述抽样过程足够多次,随着迭代进行,样本将会逐渐收敛于目标的联合分布。
自然三次样条 (详见原书 5.2 分段多项式和样条)
三次样条(cubic spline)是将数据区间划分为若干个小区间,每个区间内用一个三次多项式拟合,且整体函数在区间连接点处保持:
- 函数值连续(\(C^0\))
- 一阶导数连续(\(C^1\))
- 二阶导数连续(\(C^2\))
自然三次样条(Natural cubic spline)是在此基础上,对两端的两个点添加了“自然”条件:\(f''(x_1) = f''(x_n) = 0\)
也就是说,样条函数在两端的二阶导数为 0,表示在端点处“趋于线性”。