统计学的学习笔记

发表于 2025-02-01 分类于文史数理

重点记录

oracle不等式
各种残差的概念的理解：方差偏差残差标准误差标准差残差偏差（residual deviance）
残差在模型诊断中的重要性
小波基底压缩感知傅⾥叶滤波
统计学复杂的地方：不同假设对应不同估计和方案选择，所以结果出来需要对假设做检验
偏差-方差权衡（bias-variance trade off）
投资风险就是方差

数据的选取

医学数据
earinf: 夏季耳部感染数据
金融数据
例如股票的数据

知识点

逆高斯分布
逆高斯分布有一个有趣的解释，与布朗运动相关。布朗运动是指粒子随时间的随机运动。对于具有正漂移（倾向于从当前位置移动）的布朗运动的粒子，逆高斯分布描述了粒子到达某个固定正距离 $$所需时间的分布。而正态分布（也称为高斯分布）描述了在固定时间点粒子从原点的距离分布。逆高斯分布因与正态分布的这种关系而得名。当 $\phi = 1$ 时，泊松分布是其特例。
响应变量的对数转换的最主要目的，是让残差常数化
模型建模三部曲
- 假设
- 估计或拟合、推断(一种系数显著性检验，例如t检验)
- 诊断假设合理性（各种检验技术，例如F检验）
⼴义线性模型（GLM，McCullagh 和 Nelder 1989）这些模型使⽤指数族分布的成员（如伯努利、泊松和⾼斯分布等）来描述响应变量。
不同统计量的定义和背后的本质以及其对应的某一种的情况。
等高线是降维作用
求切线，先求法线，通过升维函数的梯度求。
统计学书籍介绍：
https://martechcareer.com/advice/stats-data-analyst-should-know 数据科学家也需要补上这堂统计课
Cauchy-Schwarz 不等式说明两个向量的内积的绝对值小于等于它们长度的乘积。只有当两个向量共线时（即线性相关），等号成立。
曼哈顿距离就是$\mathcal l_1$范数
概率和统计：概率是统计的工具，统计是分析数据的方法。
上采样、下采样；过采样、欠采样
- 上采样&下采样
  对于CV领域来说，可以理解为放大图片和缩小图片，将原始图片放大就是上采样，将多个像素点合成一个从而缩小图片就是下采样，所以池化操作就可以理解为一种下采样。如果想进一步了解图像领域的上采样和下采样，可以参照：图像的上采样（upsampling）与下采样（subsampled）
  对于非cv领域能，我觉得这个词用得少一点，如果是特征增多，一般称为特征构造，如果是选择部分特征，一般说特征选择。
- 过采样&欠采样
  这主要是针对不平衡的数据集做的一些操作。
  欠采样（undersampling）：当数据不平衡的时，比如对于一个只用0和1的二分类问题，样本标签1有10000个数据，样本标签0有6000个数据时，为了保持样本数目的平衡，可以选择减少标签1的数据量，这个过程就叫做欠采样。
  过采样（oversampling）减少数据量固然可以达到以上效果，并且在一定程度上防止过拟合，但是这也牺牲了数据，因此存在另一种增加样本的采样方法，也就是增加标签0的样本数。
统计的流派
对于人类来讲，一个能把英语翻译成汉语的人，必定能很好理解这两种语言。这就是直觉的作用。在人工智能领域，包括自然语言处理领域，后来把这样的方法论称作“鸟飞派”，也就是看看鸟是怎么飞的，就能模仿鸟造出飞机，而不需要了解空气动力学。事实上我们知道，怀特兄弟发明飞机靠的是空气动力学而不是仿生学。
自然语言的处理从基于规则方法的传统（语言和这个世界一样，不规则、不确定性占了很大比例），现在转入了统计的语言处理方法。
这里有一个很好的例子，来自于腾讯搜索部门。最早的语言模型是使用《人民日报》的语料训练的，因为开发者认为这些语料干净、无噪音。但是实际的效果就比较差，经常出现搜索串和网页不匹配的例子。后来改用网页的数据，尽管他们有很多的噪音，但是因为训练数据和应用一致，搜索质量反而好。
分词的二义性是语言歧义性的一部分，1990年前后，当时清华大学电子工程系工作的郭进博士用统计语言模型成功解决了分词二义性的问题，将汉语分词的错误率降低了一个数量级。
就像飞机不需要拍动翅膀。
今天几乎所有的科学家都不坚持『机器要像人一样思考才能获得智能』，但是很多门外汉在谈到人工智能时依然想象着『机器在像我们那样思考。』...机器智能最重要的是能够解决人脑所能解决的问题，而不是在于是否需要采用和人一样的方法。
微积分
求导是切线斜率；求积分是求面积
微积分的本质是研究关于连续变化的问题
数学：普及，平民化，现在又抽象化了，走向精英阶层
世界的不确定性
科学家们开始改变思维：能找到现象背后的因果模型更好，因为这毕竟是一劳永逸的事情，很好的体现了上帝的意志。
但是，在这个每个突破的都需要漫长的时间里，我们可以通过大数据思维，在基于不确定的前提下，借助数据量的突破性增长、借助计算机能力的突破性发展，以及人类在人工智能方面的飞跃（Alphago战胜了李世石），通过数据的相关性来掌握事物的规律，然后基于机器学习，不断优化模型。这就是大数据思维的核心。
用不确定的眼光看待世界，再用信息来消除这种不确定性，是大数据解决智能问题的本质。（从确定性到相关性）
世界的不确定性，通过统计、大数据来模拟近似。
几千年来，我们人类的只是都是建立在归纳法之上，归纳法隐含的假设就是『未来将继续和过去一样』，换句话说应该叫连续性假设。
与机械思维是建立在一种确定性的基础上所截然不同的是，信息论完全是建立在不确定性基础上
知识就像圆，你懂得越多，无知就越多。因为这个世界是不确定性为主导的。（针对人的有限性）
吾生也有涯，而知也无涯，以有涯随无涯，殆已。
肖申克的救赎，工作和监狱，确定性和自由的不确定性。（出狱又回来）
风险模型
统计模型：目前主要使用，根据历史交易中的欺诈交易信息训练分类算法，然后将经过采集加工后的交易信息输入分类算法，即可得到交易风险分值。由于统计模型采用模糊识别，并不精确匹配欺诈类型规则，因为对新出现的交易欺诈有一定的预测性。
统计就是数学物理化
重视经验和数据，而非严格逻辑推理
量子物理
什么是量子物理？物理学家们所测量的能量、电荷、角动量等都是量子化的。它们并非无限可分的；能量、电荷等等全部存在一个最小单位。
所以说，量子物理和布尔运算一样，都是离散的思想。
数据、信息、知识
数据（原料）->信息->知识
科学的分类
科学就是在表面的变化中找不变；
硬科学就是找因果关系，包括公式、规律、原理、模式等；
软科学就是找相关性，例如统计学、大数据科学、AI等；
迭代和递归的区别
迭代的含义
从“编程之美”的角度看，可以借用一句非常经典的话：“迭代是人，递归是神！”来从宏观上对二者进行把握。
迭代是将输出做为输入,再次进行处理。比如将摄像头对着显示器；比如镜子对着镜子；比如KTV中将麦克对着音箱；比如机关枪扣动扳机发射子弹后，利用后座力继续扣动扳机。
用程序表述就是：for (int i=0; i < 100; i++) n = f(n);
再给迭代举个通俗点的例子：假如你有一条哈士奇和一条中华田园犬，怎么让它们串出比较纯正的哈士奇呢？先让哈士奇与中华田园犬配对，生下小狗。再让哈士奇与小狗配对，当然要等小狗长大后。就这样一直让哈士奇与新生的小狗配对，一代一代地迭，最终你能得到比较纯正的哈士奇。如果你纠结猫三狗四，猪五羊六，牛七马八这样的自然规律，不妨把两条狗改为老鼠与宠物仓鼠，他们一个月就能迭代一次。
从计算机角度讲，递归是迭代的特例。https://www.zhihu.com/question/20278387
a.递归中一定有迭代，但是迭代中不一定有递归；大部分可以相互转换。
b.相对来说，能用迭代不用递归（因为递归不断调用函数，浪费空间，容易造成堆栈溢出）