线性回归系数t统计量的计算过程

《Practical Statistics for Data Scientists》书籍英文版
《面向数据科学家的实用统计学》中文版书籍

在理解线性回归中系数的t统计量之前,我们首先要知道这个统计量的作用:它用来检验某个自变量对因变量的影响是否具有统计显著性

简单来说,t统计量回答了这个问题:“这个自变量的系数,真的不为零吗?”


系数t统计量的计算过程

线性回归中每个系数的t统计量,都是通过一个简单的公式计算出来的:

\(t = \frac{\text{估计的系数}}{\text{系数的标准误}}\)

下面我们来拆解这个公式中的两个关键部分。

1. 估计的系数 (\(\hat{\beta}\))

这部分很好理解,它就是线性回归模型拟合后,每个自变量前的那个数值。例如,在模型 \(Y = \beta_0 + \beta_1 X_1 + \beta_2 X_2 + \epsilon\) 中: * \(\hat{\beta}_1\)\(X_1\) 的系数估计值。 * \(\hat{\beta}_2\)\(X_2\) 的系数估计值。

这个系数代表了在其他所有变量保持不变的情况下,自变量每变化一个单位,因变量的平均变化量。

2. 系数的标准误 (\(SE(\hat{\beta})\))

这部分是计算的核心,它衡量了系数估计值的精确度。标准误越大,说明你的系数估计值越不稳定,越可能随着不同的样本而变化。

系数的标准误是通过以下方式计算的:

\(SE(\hat{\beta}) = \sqrt{\frac{\hat{\sigma}^2}{(n-p) \cdot \text{Variance}(X)}}\)

其中: * \(\hat{\sigma}^2\)残差方差的估计,它反映了模型未能解释的误差。残差方差越小,说明你的模型拟合得越好,误差越小。 * \(n\) 是样本大小。 * \(p\) 是模型中的参数数量(包括截距项和所有自变量的系数)。 * \(\text{Variance}(X)\) 是自变量 \(X\) 的方差。

这个公式告诉我们几点重要信息:

  • 残差方差:残差方差越小,标准误就越小,系数的估计就越精确。
  • 样本大小:样本量 \(n\) 越大,标准误就越小,估计也越精确。
  • 自变量方差:自变量 \(X\) 的方差越大(即数据点分布得越广),标准误就越小。这是因为更广的分布能提供更强的信号来估计系数。
  • 多重共线性:如果自变量之间存在多重共线性(高度相关),\(\text{Variance}(X)\) 将会很小甚至接近于零,这将导致标准误急剧增大,使系数变得不稳定,无法进行可靠的解释。

t统计量的解释

现在我们回到 t统计量的公式:\(t = \frac{\text{估计的系数}}{\text{系数的标准误}}\)

  • t值越大(无论是正还是负),说明估计的系数越大,且/或标准误越小。这表明该系数与0的差异越显著
  • t值越小(接近于0),说明估计的系数与0的差异不显著

通常,统计软件会为你计算出每个系数的t统计量,并给出一个对应的 p值。这个p值就是你进行假设检验的依据:

  • 如果 p值 < 0.05 (或你设定的显著性水平),通常认为该系数是统计显著的,也就是说,我们有足够的证据相信该自变量对因变量确实有影响。
  • 如果 p值 > 0.05,则认为该系数不显著,我们无法得出该自变量对因变量有影响的结论。

计算残差方差是评估回归模型拟合优劣的重要一步。它衡量了模型无法解释的变异性,也就是数据点到回归线(或超平面)的平均偏离程度。

残差方差的计算过程如下:

第一步:计算残差

首先,你需要得到模型的残差。残差(\(e_i\))是每个数据点的实际观测值 (\(y_i\)) 与模型的预测值 (\(\hat{y}_i\)) 之间的差异。

\(e_i = y_i - \hat{y}_i\)

其中: * \(y_i\) 是第 \(i\) 个数据点的实际因变量值。 * \(\hat{y}_i\) 是模型根据自变量计算出的第 \(i\) 个数据点的预测值。

残差可以为正(实际值高于预测值)或负(实际值低于预测值)。

第二步:计算残差平方和(Residual Sum of Squares, RSS)

接下来,你需要将所有残差平方后求和。平方是为了确保所有差异都是正数,并且对较大的差异给予更大的权重。

\(RSS = \sum_{i=1}^{n} e_i^2 = \sum_{i=1}^{n} (y_i - \hat{y}_i)^2\)

这个值表示了所有数据点到回归线距离平方的总和。RSS 越小,说明模型的拟合效果越好。

第三步:计算残差方差(Residual Variance)

最后,用残差平方和除以其自由度,就得到了残差方差,通常用 \(\hat{\sigma}^2\) 表示。

\(\hat{\sigma}^2 = \frac{RSS}{n - p}\)

其中: * \(n\) 是样本中的观测值数量。 * \(p\) 是模型中估计的参数数量(包括截距项)。 * 例如,一个简单的线性回归模型 \(Y = \beta_0 + \beta_1 X\) 中,有2个参数 (\(\beta_0\)\(\beta_1\)),所以 \(p=2\)。 * 自由度 \(n-p\) 可以理解为,在拟合模型之后,剩余的可以自由变化的观测值数量。

残差方差的平方根,即残差标准误(Residual Standard Error, RSE),是更常用的指标。它与残差方差传达了相同的信息,但单位与原始因变量相同,因此更易于解释。

\(RSE = \sqrt{\hat{\sigma}^2} = \sqrt{\frac{RSS}{n - p}}\)

残差方差的意义

  • 模型拟合质量:残差方差越小,意味着数据点越集中在回归线周围,模型的拟合效果越好。
  • 参数的显著性:残差方差是计算系数标准误的关键组成部分。残差方差越大,系数的标准误也越大,从而导致t统计量变小,使得系数更难达到统计显著。
  • 预测不确定性:残差方差可以帮助我们量化模型预测的不确定性。例如,它被用于计算预测区间,以估计新数据点可能落在的范围。