统计量的选择判断

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

统计推断里的一个核心问题,“该用哪个统计量”? 主要取决于 数据类型(连续/分类)、样本大小已知信息(总体方差是否已知)以及 要检验的问题。 下面是一个常用的判断思路:

1、先看数据类型

数据类型 典型检验 说明
连续型变量(数值型) t 检验、z 检验、F 检验 例如身高、体重、分数
分类变量(计数/频率) 卡方检验、Fisher 精确检验 例如性别、是否购买、不同分组人数

2、连续型数据:z 检验 vs t 检验

  • z 检验:用于总体方差 已知、样本量大(通常 n≥30)时;或数据满足正态分布且已知 σ。

  • t 检验:用于总体方差 未知 时;样本量小或中等时都可用。

    • 单样本 t 检验:一个样本均值与某个已知总体均值比较
    • 双样本 t 检验:两组样本均值比较
    • 配对 t 检验:同一对象前后两次测量比较

3、分类数据:卡方检验 vs Fisher 精确检验

  • 卡方检验

    • 用于计数数据(频数、分类变量)
    • 检验两变量是否独立(列联表)或分布是否符合期望(拟合优度)
    • 样本量要足够大(每个格子的期望频数最好 ≥5)
  • Fisher 精确检验

    • 当样本量小、期望频数 <5 时,用于 2×2 表的精确概率检验

4、F 检验

  • 比较两个方差是否相等(常作为 t 检验前置检验)
  • ANOVA(方差分析)就是在 F 检验的框架上进行的

5、一个快速决策表

情境 统计量
单样本均值与总体均值比较(σ未知) 单样本 t 检验
两个独立样本均值比较 独立样本 t 检验
同一组前后比较 配对 t 检验
两个方差比较 F 检验
频数分布与期望比较 卡方拟合优度检验
两个分类变量独立性检验 卡方独立性检验
分类变量期望频数小 Fisher 精确检验

6、原则小结

  • 先看变量(连续 vs 分类)
  • 再看假设(均值、方差、比例、分布)
  • 再看样本量和已知信息(总体方差是否已知)
  • 如果难以判断或分布不满足条件,可以用重抽样/置换检验/Bootstrap做非参数检验