《赤裸裸的统计学》读书心得

一本关于统计学的普及类书籍,从宏观上介绍了统计学的主要概念和关键的原理。写得通俗易懂,作为一本入门的了解统计学的书籍来说还是不错的。
本书的主要目的是需要明白数学在生活中的意义,所以很多的例子是结合生活中的实际场景来展开的,使统计学的概念变得更加直观和便于理解。确实是,学习一门课程,考虑生活意义,从生活意义出发是让学生提高兴趣的最好的方法,避免一开始就进入枯燥的定理和公式,只会劝退大部分的学生。
统计学中重要的区分因果关系和相关性(具有统计学意义)。

统计学是大数据时代最炙手可热的学问

从抽样数据来解决大问题。统计学的一个核心功能就是使用手中已有的数据进行合理推测,以回答那些我们还未掌握所有信息的“大”问题。简而言之,我们能够使用“已知世界”的数据来对“未知世界”进行推断。

  • 将一序列复杂数据浓缩成单一数字的应用。例如足球中会把一堆数据浓缩成一个单独的评分。
  • 描述统计学存在的意义就是简化,因此不可避免的丢失一些内容和细节,方便对比和评价。(简化才能适应人的大脑,才容易传播,特别是面对公共领域的时候。),浓缩的技术、取舍权重不同导致不同的结果。人们喜欢看到简单的答案!
  • 任何一个风险评估模型都必须以概率为基础。(概率的不确定性会导致黑天鹅事件的颠覆效应。
  • 统计学总是想告诉我们一些信息,但是面对这些信息,聪明而又诚实的人经常有不同的看法。

描述统计学

平均数、中位数、四分位数等。

  • 25百分位和75百分位,通常作为中产阶级中的高收入和低收入人群。

标准差也是一个能让我们在一堆杂乱无章的数字中发现真理的统计数值。我们用它来衡量数据相对于平均值的分散程度,根据标准差,我们可以知道所有观察数值的分散情况。
标准差和方差。

统计数字会说谎

判断比数学更重要。每个从统计学出发的管理需要考虑的是人性而非仅仅是科学。

  • 马克·吐温:“谎言有三种,谎言、该死的谎言,以及统计学。”(就像历史是任人打扮的小姑娘一样

从数字出发,组织数据的方式,截取不同的部分,从不同的视角,不同的变量出发,得出不同的有利于自己的结论,是统计学谎言的常用套路。例如百分率和百分差。数据仅仅是工具而已。

相关性和相关系数

相关性作为一个统计工具的魅力就在于将两个变量的关联精炼成一个描述性数据:相关系数。并且相关系数不受两个变量单位的限制。(因为计算的时候会将变量统一转变为标准差。)

概率和期望值

概率学是一门研究不确定实践和结果的学问。这个世界的因果关系我们人类知之甚少。

大数定律:随着实验次数增多,结果的平均值会越来越接近期望值。
大数定律及概率密度函数:


保险的精算师其实就是关于概率和期望值的游戏。




黑天鹅事件

VaR模型




一些常见的与概率有关的错误、误解和道德困境

  • 想当然的认为事件之间不存在联系。
    例如两个发动机故障可能是相关的,同批次、同年限。
  • 对两个事件的统计独立一无所知。
    掷硬币。
  • 成群病例的发生。
    真的是特例和巧合,例如中彩票一样。
  • 检方谬误
  • 回归平均数(或趋均数回归)

  • 统计性歧视

数据与偏见

中心极限定律

大数定理:单个实验,多次,达到平均值。
中心极限定理:小样本与大样本相似,小样本平均值符合正态分布。



标准差和标准误差的区别:
标准误差就是所有样本平均值的标准差。
样本平均值的聚集程度会随着样本数量的增多而上升。


统计推断与假设检验




民意测验和误差幅度



回归分析与线性关系

具体来说,回归分析能够在控制其它因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。回归分析寻找的是两个变量之间的最佳拟合曲线关系。
最小二乘法(OLS)

回归系数的正态分布

当回归系数至少是标准误差的两倍或以上的时候,该系数极有可能具有统计学意义。

R平方 = 1 -(残差平方和/总平方和) 拟合程度(0,1),越大拟合程度越好,1代表都落在曲线上。

多元线性回归

致命的回归错误(七宗罪)

  • 用回归方程式来分析非线性关系;
  • 相关关系并不等同于因果关系;
  • 因果倒置;
    关键在于我们不应该使用那些受结果影响的解释变量,不然的话,因和果将会永无休止的纠缠下去。
    我们应该确保解释变量会影响因变量,而不是相反。
  • 变量遗漏偏差;
    例如打高尔夫的人得心脏病比常人多,缺少了年龄这个变量。(打高尔夫的人都年龄偏大)
  • 高度相关的解释变量(多元共线性)
    当两个解释变量高度相关时,研究人员将会在回归方程中只采用其中一个,或创造一个新的综合变量。
  • 隔离数据进行推断
    样本相似性的场景才有效。
  • 数据矿(变量过多)
  • 差分类查分实验
  • 不连续分析实验 (分界线两端的相近值分入不同组做实验)

总结:

项目评估与反现实


常用实验方法

  • 随机控制实验
  • 自然实验
  • 非对等对照实验

文章摘要

  • 用数据说谎容易,但是用数据说出真相却很难。
  • 数据只不过是知识的原材料。
  • 中位数:偶数个取中间两个的平均值。
  • 你无法管理你无法衡量的东西。
  • 大数定理:单个实验,多次,达到平均值。
    中心极限定理:小样本与大样本相似,小样本平均值符合正态分布。
  • 怀孕的女性是养成消费习惯的最佳人群。









查:

爱好数学的CIO
金融行业 风险价值(VaR)模型。