《Introduction to Probability》第7 章 联合分布
第7 章 联合分布
Joint distributions
当我们最初在第3章介绍随机变量及其分布时,我们注意到两个随机变量各自的分布并不能告诉我们这两个随机变量是相互独立还是相关的。例如,如果两个 \(Bern(1/2)\) 随机变量 \(X\) 和 \(Y\) 分别表示两次不同硬币投掷的正面向上的情况,则它们可能是独立的;如果它们分别表示同一次硬币投掷的正面向上的情况和背面向上的情况,则它们是相关的。因此,尽管 \(X\) 的 PMF 是 \(X\) 的完整蓝图,\(Y\) 的 PMF 是 \(Y\) 的完整蓝图,但这些单独的 PMF 缺失了关于这两个随机变量如何关联的重要信息。
当然,在现实生活中,我们通常关心同一实验中多个随机变量之间的关系。仅举几例:
- 医学:为了评估某种疗法的有效性,我们可能会对每位患者进行多次测量;血压、心率和胆固醇读数的集合比其中任何一项单独的测量值都更能提供信息。
- 遗传学:为了研究各种遗传标记与某种特定疾病之间的关系,如果我们只分别观察每个遗传标记的分布,就可能无法了解标记之间的相互作用是否与该疾病有关。
- 时间序列:为了研究某事物随时间演变的情况,我们通常可以进行一系列随时间变化的测量,然后对该序列进行联合研究。此类序列有很多应用,如全球气温、股票价格或国家失业率。通过联合考虑这一系列测量值,可以帮助我们推断趋势,从而预测未来的测量结果。
本章探讨联合分布(也称为多元分布 multivariate distributions),它捕捉了先前缺失的关于多个随机变量如何相互作用的信息。我们引入了 CDF、PMF 和 PDF 的多元对应形式,以便提供对多个随机变量之间关系的完整说明。在这些基础工作完成后,我们将研究几个著名的命名多元分布,将二项分布和正态分布推广到更高维度。
7.1 联合分布、边缘分布与条件分布
Joint, marginal, and conditional T
本节的三个核心概念是联合分布、边缘分布和条件分布。回想一下,单个随机变量 \(X\) 的分布提供了关于 \(X\) 落入实数轴任意子集的概率的完整信息。类似地,两个随机变量 \(X\) 和 \(Y\) 的联合分布提供了关于向量 \((X, Y)\) 落入平面任意子集的概率的完整信息。\(X\) 的边缘分布是忽略 \(Y\) 的取值时 \(X\) 的个体分布;而给定 \(Y = y\) 时 \(X\) 的条件分布是在观测到 \(Y = y\) 后 \(X\) 的更新分布。我们将先讨论离散情况下的这些概念,然后再将其扩展到连续情况。
7.1.1 离散情况
Discrete
对两个随机变量联合分布最通用的描述是联合 CDF,它同样适用于离散型和连续型随机变量。
定义 7.1.1(联合 CDF):随机变量 \(X\) 和 \(Y\) 的联合 CDF 是函数 \(F_{X,Y}\),定义为: \[ F_{X,Y}(x,y) = P(X \le x, Y \le y) \]
\(n\) 个随机变量的联合 CDF 的定义与之类似。
遗憾的是,离散型随机变量的联合 CDF 并不是一个性质良好的函数;正如在单变量情况中一样,它由跳跃点和平台区域组成。因此,对于离散型随机变量,我们通常使用联合 PMF,它同样决定了联合分布,且更易于直观化。
定义 7.1.2(联合 PMF):离散型随机变量 \(X\) 和 \(Y\) 的联合 PMF 是函数 \(p_{X,Y}\),定义为: \[ p_{X,Y}(x,y) = P(X = x, Y = y) \]
\(n\) 个离散型随机变量的联合 PMF 的定义与之类似。
正如单变量 PMF 必须是非负的且总和为 1 一样,合法的联合 PMF 也必须是非负的,且对 \(X\) 和 \(Y\) 的所有可能取值求和的结果为 1: \[ \sum_x \sum_y P(X = x, Y = y) = 1 \]
联合 PMF 决定了分布,因为我们可以利用它求出 \((X, Y) \in A\) 这一事件对于 \((X, Y)\) 支持集内任何点集 \(A\) 的概率。我们只需对集合 \(A\) 上的联合 PMF 求和: \[ P((X, Y) \in A) = \sum_{(x,y) \in A} P(X = x, Y = y) \]
图 7.1 展示了两个离散随机变量联合 PMF 的示意图。在点 \((x, y)\) 处的垂直柱体高度表示概率 \(P(X = x, Y = y)\)。为了使联合 PMF 合法,所有垂直柱体的总高度必须为 1。

通过对 \(Y\) 的所有可能取值求和,我们可以从 \(X\) 和 \(Y\) 的联合分布中得到单独 \(X\) 的分布。这给出了我们在前几章中熟悉的 \(X\) 的 PMF。在联合分布的背景下,我们将其称为 \(X\) 的边缘分布(marginal distribution)或无条件分布(unconditional distribution),以明确我们指的是单独 \(X\) 的分布,而不考虑 \(Y\) 的取值。
定义 7.1.3(边缘 PMF):对于离散随机变量 \(X\) 和 \(Y\),\(X\) 的边缘 PMF 为: \[ P(X=x) = \sum_{y} P(X=x, Y=y) \]
\(X\) 的边缘 PMF 即为 \(X\) 的 PMF,只是将 \(X\) 视为个体而非与 \(Y\) 联合考虑。上述等式由概率公理推导得出(我们是对互斥的情况求和)。为了将联合 PMF 转换为 \(X\) 的边缘 PMF 而对 \(Y\) 的所有可能取值进行求和的操作,被称为边缘化(marginalizing out) \(Y\)。
图 7.2 展示了从联合 PMF 获取边缘 PMF 的过程。为了获得更清晰的视角,我们在这里对联合 PMF 采用鸟瞰图;联合 PMF 的每一列对应一个固定的 \(x\),每一行对应一个固定的 \(y\)。对于任何 \(x\),概率 \(P(X = x)\) 是联合 PMF 中对应列所有柱体的总高度:我们可以想象将该列中的所有柱体叠放在一起,从而得到边缘概率。对所有的 \(x\) 重复此操作,我们便得到了图中以粗体表示的边缘 PMF。

类似地,\(Y\) 的边缘 PMF 是通过对 \(X\) 的所有可能取值求和得到的。因此,给定联合 PMF,我们可以边缘化 \(Y\) 来获得 \(X\) 的 PMF,或者边缘化 \(X\) 来获得 \(Y\) 的 PMF。但如果我们只知道 \(X\) 和 \(Y\) 的边缘 PMF,在没有进一步假设的情况下,是无法恢复出联合 PMF 的。在图 7.2 中,如何叠放柱体是很明确的,但要在柱体叠放之后再将其拆分回去是非常困难的!
另一种从联合分布转到边缘分布的方法是通过联合 CDF。在这种情况下,我们采用极限而非求和:\(X\) 的边缘 CDF 为: \[ F_X(x) = P(X \le x) = \lim_{y \to \infty} P(X \le x, Y \le y) = \lim_{y \to \infty} F_{X,Y}(x,y) \]
然而,如上所述,使用联合 PMF 通常更容易。
现在假设我们观测到了 \(X\) 的值,并希望更新 \(Y\) 的分布以反映这一信息。此时我们不应使用未考虑任何 \(X\) 信息的边缘 PMF \(P(Y = y)\),而应使用以事件 \(X = x\) 为条件的 PMF,其中 \(x\) 是我们观测到的 \(X\) 的值。这自然地引导我们去考虑条件 PMF。
定义 7.1.4(条件 PMF):对于离散型随机变量 \(X\) 和 \(Y\),在给定 \(X = x\) 的条件下,\(Y\) 的条件 PMF 为: \[ P(Y=y|X=x) = \frac{P(X=x, Y=y)}{P(X=x)} \]
对于固定的 \(x\),这被视为关于 \(y\) 的函数。
注意,(对于固定的 \(x\))条件 PMF 是一个合法的 PMF。因此,我们可以定义给定 \(X = x\) 时 \(Y\) 的条件期望,记作 \(E(Y|X = x)\);其定义方式与 \(E(Y)\) 相同,只需将 \(Y\) 的 PMF 替换为 \(Y\) 的条件 PMF 即可。第 9 章将专门讨论条件期望。
图 7.3 展示了条件 PMF 的定义。为了以事件 \(X = x\) 为条件,我们首先查看联合 PMF,并关注 \(X\) 取值为 \(x\) 处的垂直柱体;在图中,这些柱体以粗体显示。所有其他的垂直柱体都是无关的,因为它们与 \(X = x\) 发生这一已知事实不符。由于粗体柱体的总高度是边缘概率 \(P(X = x)\),我们随后通过除以 \(P(X = x)\) 来对条件 PMF 进行归一化;这确保了条件 PMF 的总和为 1。因此,条件 PMF 是 PMF,正如条件概率是概率一样。请注意,\(X\) 的每一个可能取值都对应一个不同的 \(Y\) 的条件 PMF;图 7.3 仅突出了其中之一。

我们还可以利用贝叶斯法则,将给定 \(X = x\) 时 \(Y\) 的条件分布与给定 \(Y = y\) 时 \(X\) 的条件分布联系起来: \[ P(Y=y|X=x) = \frac{P(X=x|Y=y)P(Y=y)}{P(X=x)} \]
利用全概率公式(LOTP),我们得到了获取边缘 PMF 的另一种方法:\(X\) 的边缘 PMF 是条件 PMF \(P(X = x|Y = y)\) 的加权平均,权重为概率 \(P(Y = y)\): \[ P(X=x) = \sum_y P(X=x|Y=y)P(Y=y) \]
让我们通过一个数值例子来补充我们一直在看的图表。
例 7.1.5(\(2 \times 2\) 表):离散联合分布最简单的例子是 \(X\) 和 \(Y\) 均为伯努利随机变量。在这种情况下,联合 PMF 由四个值完全确定:\(P(X = 1, Y = 1)\),\(P(X = 0, Y = 1)\),\(P(X = 1, Y = 0)\) 以及 \(P(X = 0, Y = 0)\),因此我们可以使用一个 \(2 \times 2\) 的表格来表示 \(X\) 和 \(Y\) 的联合 PMF。
这种非常简单的场景实际上在统计学中占有重要地位,因为这些所谓的列联表(contingency tables)常被用于研究某种疗法是否与特定的结果相关。在这些场景中,\(X\) 可能是接受治疗的指示变量,而 \(Y\) 可能是所关注结果的指示变量。
例如,假设我们从美国成年男性人口中随机抽取一人。令 \(X\) 为该个体目前是否吸烟的指示变量,令 \(Y\) 为他在一生中某个阶段是否患上肺癌的指示变量。假设联合 PMF 如下(这些数值仅用于说明,并非根据真实数据估算):

为了得到边缘概率 \(P(Y = 1)\),我们将表格中 \(Y = 1\) 的两个单元格的概率相加。我们对 \(P(Y = 0)\)、\(P(X = 1)\) 和 \(P(X = 0)\) 进行同样的操作,并将这些概率写在表格的边缘(这使得“边缘”成为了一个贴切的名字!)。

这表明 \(X\) 的边缘分布是 \(Bern(0.25)\),而 \(Y\) 的边缘分布是 \(Bern(0.08)\)。用语言描述,即该个体目前吸烟的无条件概率为 0.25,其患肺癌的无条件概率为 0.08。
现在假设我们观测到 \(X = 1\),即该个体目前吸烟。我们可以据此更新关于他患肺癌风险的看法: \[ P(Y = 1|X = 1) = \frac{P(X = 1, Y = 1)}{P(X = 1)} = \frac{5/100}{25/100} = 0.2 \]
因此,在 \(X = 1\) 条件下,\(Y\) 的条件分布是 \(Bern(0.2)\)。通过类似的计算,在 \(X = 0\) 条件下,\(Y\) 的条件分布是 \(Bern(0.04)\)。这告诉我们,目前吸烟者患肺癌的概率为 0.2,而非吸烟者仅为 0.04。
7.1.6. “边缘”(marginal)一词在经济学和统计学中具有相反的含义。在经济学中,它指的是导数,例如边际收益(marginal revenue)是收益对销售量的导数。在统计学中,它指的是积分或求和,直观上可以通过在表格的边缘(margins)填写总计来理解,如上述示例所示。
有了对联合分布、边缘分布和条件分布的理解,我们可以重新审视在第 3 章中引入的独立性定义。
定义 7.1.7(离散随机变量的独立性):如果对于所有的 \(x\) 和 \(y\),都有 \[ F_{X,Y}(x,y) = F_X(x)F_Y(y) \]
则称随机变量 \(X\) 和 \(Y\) 是独立的。如果 \(X\) 和 \(Y\) 是离散的,这等价于条件 \[ P(X=x, Y=y) = P(X=x)P(Y=y) \]
对于所有的 \(x, y\) 均成立;它也等价于条件 \[ P(Y=y|X=x) = P(Y=y) \]
对于所有使得 \(P(X=x) > 0\) 的 \(x, y\) 均成立。
使用本章的术语,该定义是指对于独立的随机变量,联合 CDF 可以分解为边缘 CDF 的乘积,或者联合 PMF 可以分解为边缘 PMF 的乘积。请记住,通常情况下,边缘分布不能决定联合分布:这正是我们最初想要研究联合分布的原因!但在独立的特殊情况下,边缘分布就是我们确定联合分布所需的全部信息;我们可以通过将边缘 PMF 相乘来得到联合 PMF。
理解独立性的另一种方式是,所有的条件 PMF 都与边缘 PMF 相同。也就是说,从 \(Y\) 的边缘 PMF 开始,当我们以 \(X=x\) 为条件时,无论 \(x\) 是什么,都不需要进行更新。
例 7.1.8(\(2 \times 2\) 表中的独立性):回到前一个例子的表格,我们可以利用这两种关于独立性的观点来看看为什么 \(X\) 和 \(Y\) 不是独立的。

首先,联合 PMF 不是边缘 PMF 的乘积。例如: \[ P(X=1, Y=1) \neq P(X=1)P(Y=1) \]
只要找到哪怕一组 \(x\) 和 \(y\) 使得 \(P(X=x, Y=y) \neq P(X=x)P(Y=y)\),就足以排除独立性。
其次,我们发现 \(Y\) 的边缘分布是 \(Bern(0.08)\),而给定 \(X=1\) 时 \(Y\) 的条件分布是 \(Bern(0.2)\),给定 \(X=0\) 时 \(Y\) 的条件分布是 \(Bern(0.04)\)。由于以 \(X\) 的值为条件改变了 \(Y\) 的分布,因此 \(X\) 和 \(Y\) 不是独立的:了解抽样个体目前是否吸烟,为我们提供了关于他患肺癌概率的信息。
虽然我们发现 \(X\) 和 \(Y\) 是相关的,但我们不能仅凭这种关联就得出吸烟是否导致肺癌的结论。正如我们从辛普森悖论(Simpson's paradox)中所学到的,当我们未能考虑到混杂变量时,可能会出现误导性的关联。
我们将再举一个离散联合分布的例子来完成本节。我们将其命名为“鸡生蛋故事(chicken-egg story)”;在这个例子中,我们利用“愿望思维”(wishful thinking)来寻找联合 PMF,而我们的努力带来了一个令人惊讶的独立性结果。
故事 7.1.9(鸡生蛋)。假设一只母鸡产下的鸡蛋数量 \(N\) 是随机的,且 \(N \sim \text{Pois}(\lambda)\)。每个鸡蛋独立孵化的概率为 \(p\),孵化失败的概率为 \(q = 1-p\)。令 \(X\) 为孵出的雏鸡数,\(Y\) 为未孵出的鸡蛋数,因此 \(X + Y = N\)。问 \(X\) 和 \(Y\) 的联合 PMF 是什么?
解:
我们需要求非负整数 \(i\) 和 \(j\) 的联合 PMF \(P(X=i, Y=j)\)。在给定鸡蛋总数 \(N\) 的条件下,每个鸡蛋都是成功概率为 \(p\) 的独立伯努利试验,因此根据二项分布的故事,\(X\) 和 \(Y\) 的条件分布分别为 \(X|N=n \sim \text{Bin}(n, p)\) 和 \(Y|N=n \sim \text{Bin}(n, q)\)。由于如果知道鸡蛋总数,我们的计算会变得更简单,所以让我们利用“愿望思维”:以 \(N\) 为条件并应用全概率公式。得出: \[ P(X=i, Y=j) = \sum_{n=0}^{\infty} P(X=i, Y=j|N=n)P(N=n) \]
该和式是对所有可能的 \(n\) 求和,同时保持 \(i\) 和 \(j\) 固定。但除非 \(n = i+j\),否则 \(X=i\) 且 \(Y=j\) 是不可能发生的。例如,要有 5 只孵出的雏鸡和 6 个未孵出的鸡蛋,唯一的方法是总共有 11 个鸡蛋。因此,除非 \(n = i+j\),否则: \[ P(X=i, Y=j|N=n) = 0 \]
这意味着求和式中的所有其他项都可以舍弃: \[ P(X=i, Y=j) = P(X=i, Y=j|N=i+j)P(N=i+j) \]
在 \(N=i+j\) 的条件下,事件 \(X=i\) 和 \(Y=j\) 完全是同一个事件,因此同时保留两者是冗余的。我们保留 \(X=i\);剩下的工作就是代入二项分布 PMF 得到 \(P(X=i|N=i+j)\),以及代入泊松分布 PMF 得到 \(P(N=i+j)\)。因此: \[ P(X=i, Y=j) = P(X=i|N=i+j)P(N=i+j) \]
\[ = \binom{i+j}{i} p^i q^j \cdot \frac{e^{-\lambda} \lambda^{i+j}}{(i+j)!} \]
\[ = \frac{(i+j)!}{i!j!} p^i q^j \cdot \frac{e^{-\lambda} \lambda^{i+j}}{(i+j)!} \]
\[ = \frac{e^{-\lambda p} (\lambda p)^i}{i!} \cdot \frac{e^{-\lambda q} (\lambda q)^j}{j!} \]
联合 PMF 分解成了 \(\text{Pois}(\lambda p)\) 的 PMF(作为 \(i\) 的函数)与 \(\text{Pois}(\lambda q)\) 的 PMF(作为 \(j\) 的函数)的乘积。这告诉我们两个优雅的事实:(1) \(X\) 和 \(Y\) 是独立的,因为它们的联合 PMF 是其边缘 PMF 的乘积;(2) \(X \sim \text{Pois}(\lambda p)\) 且 \(Y \sim \text{Pois}(\lambda q)\)。
起初,\(X\) 与 \(Y\) 独立似乎深深刻地违反直觉。难道知道有很多鸡蛋孵化了,不就意味着可能没有那么多鸡蛋未孵化吗?对于固定的鸡蛋数量,这种独立性是不可能的:知道孵出的鸡蛋数量将完全确定未孵出的数量。但在本例中,鸡蛋的数量是随机的,服从泊松分布,而这种随机性恰好使得 \(X\) 和 \(Y\) 在无条件下是独立的。这是泊松分布一个非常特殊的性质。
个人注:以上这段话的具体分析见文件《泊松分布的神奇性质 泊松变薄(Poisson Thinning).md》
鸡生蛋的故事补充了第 4 章的以下结果:
定理 7.1.10。如果 \(X \sim \text{Pois}(\lambda p)\),\(Y \sim \text{Pois}(\lambda q)\),且 \(X\) 与 \(Y\) 独立,那么 \(N = X + Y \sim \text{Pois}(\lambda)\),且 \(X|N=n \sim \text{Bin}(n, p)\)。
通过鸡生蛋的故事,我们现在得到了该定理的逆命题。
定理 7.1.11。如果 \(N \sim \text{Pois}(\lambda)\) 且 \(X|N=n \sim \text{Bin}(n, p)\),那么 \(X \sim \text{Pois}(\lambda p)\),\(Y = N - X \sim \text{Pois}(\lambda q)\),且 \(X\) 与 \(Y\) 独立。
7.1.12。在鸡生蛋的故事中,说:
\[ P(X=x|N=n) = P(X=x|X+Y=n) = P(X=x|Y=n-x) \] 是不正确的,因为在 \(P(X=x|N=n)\) 中,我们并不是以 \(X=x\) 为条件。事实上,\(P(X=x|N=n)\) 是 \(\text{Bin}(n, p)\) 的 PMF,而 \(P(X=x|Y=n-x) = P(X=x)\) 是 \(\text{Pois}(\lambda p)\) 的 PMF。这种在条件栏右侧代入 \(x\) 来替换 \(X\) 的错误说明了:严格区分 \(X\) 与 \(x\)、以及严格区分条件栏的左侧与右侧是多么至关重要。
7.1.2 连续情况
Continuous
一旦掌握了离散联合分布,考虑连续联合分布就不难了。我们只需将熟悉的求和替换为积分,将 PMF 替换为 PDF,并记住现在任何单个点的概率都为 0。
形式上,为了使 \(X\) 和 \(Y\) 具有连续联合分布,我们要求其联合 CDF \[ F_{X,Y}(x,y) = P(X \le x, Y \le y) \]
对 \(x\) 和 \(y\) 是可微的。对 \(x\) 和 \(y\) 的偏导数被称为联合 PDF。联合 PDF 和联合 CDF 一样,决定了联合分布。
定义 7.1.13(联合 PDF):如果 \(X\) 和 \(Y\) 是具有联合 CDF \(F_{X,Y}\) 的连续随机变量,它们的联合 PDF 是联合 CDF 对 \(x\) 和 \(y\) 的导数: \[ f_{X,Y}(x,y) = \frac{\partial^2}{\partial x \partial y} F_{X,Y}(x,y) \]
我们要求合法的联合 PDF 必须是非负的,且积分为 1: \[ f_{X,Y}(x,y) \ge 0, \quad \text{且} \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx dy = 1 \]
在单变量情况下,PDF 是我们通过积分来获得区间概率的函数。类似地,两个随机变量的联合 PDF 是我们通过积分来获得二维区域概率的函数。例如: \[ P(X < 3, 1 < Y < 4) = \int_{1}^{4} \int_{-\infty}^{3} f_{X,Y}(x,y) \, dx dy \]
对于一般区域 \(A \subseteq \mathbb{R}^2\): \[ P((X, Y) \in A) = \iint_A f_{X,Y}(x,y) \, dx dy \]
图 7.4 展示了两个随机变量联合 PDF 的示意图。与连续随机变量的一贯情况相同,我们需要记住曲面 \(f_{X,Y}(x,y)\) 在单点处的高度并不代表概率。平面上任何特定点的概率均为 0。现在由于维度增加,平面上任何直线或曲线的概率也为 0。获得非零概率的唯一方法是对 \(xy\) 平面上具有正面积的区域进行积分。

当我们对区域 \(A\) 上的联合 PDF 进行积分时,我们计算的是联合 PDF 曲面下方且在 \(A\) 之上的体积。因此,概率由联合 PDF 下方的体积表示。合法联合 PDF 下的总体积为 1。
在离散情况下,我们通过对联合 PMF 中 \(Y\) 的所有可能取值求和来获得 \(X\) 的边缘 PMF。在连续情况下,我们通过对联合 PDF 中 \(Y\) 的所有可能取值进行积分来获得 \(X\) 的边缘 PDF。
定义 7.1.14(边缘 PDF):对于具有联合 PDF \(f_{X,Y}\) 的连续随机变量 \(X\) 和 \(Y\),\(X\) 的边缘 PDF 为: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy \]
这是 \(X\) 的 PDF,即单独观察 \(X\) 而不将其与 \(Y\) 联合考虑。
为了简化符号,我们主要研究两个随机变量而非 \(n\) 个随机变量的联合分布,但边缘化对任意数量的变量都适用。例如,如果我们拥有 \(X, Y, Z, W\) 的联合 PDF,但想要得到 \(X, W\) 的联合 PDF,我们只需对 \(Y\) 和 \(Z\) 的所有可能取值进行积分: \[ f_{X,W}(x,w) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} f_{X,Y,Z,W}(x,y,z,w) \, dy dz从概念上讲这很简单——只需对不需要的变量进行积分,即可得到所需变量的联合 PDF——但计算过程未必容易。 \]
回到两个随机变量 \(X\) 和 \(Y\) 的联合分布情况,让我们考虑在观测到 \(X\) 的值后,如何使用条件 PDF 来更新 \(Y\) 的分布。
定义 7.1.15(条件 PDF):对于具有联合 PDF \(f_{X,Y}\) 的连续随机变量 \(X\) 和 \(Y\),在给定 \(X = x\) 的条件下,\(Y\) 的条件 PDF 为: \[ f_{Y|X}(y|x) = \frac{f_{X,Y}(x,y)}{f_X(x)} \]
对于所有满足 \(f_X(x) > 0\) 的 \(x\)。对于固定的 \(x\),这被视为关于 \(y\) 的函数。按照惯例,为了使 \(f_{Y|X}(y|x)\) 对所有实数 \(x\) 都有定义,对于所有满足 \(f_X(x) = 0\) 的 \(x\),令 \(f_{Y|X}(y|x) = 0\)。
符号说明 7.1.16:我们在所有的 \(f\) 上标注下标,只是为了提醒我们手头有三个不同的函数。我们同样可以写成 \(g(y|x) = f(x,y)/h(x)\),其中 \(f\) 是联合 PDF,\(h\) 是 \(X\) 的边缘 PDF,\(g\) 是给定 \(X=x\) 时 \(Y\) 的条件 PDF;但那样会让我们更难记住哪个字母代表哪个函数。
图 7.5 展示了条件 PDF 的定义。我们取联合 PDF 中对应于 \(X\) 观测值的一个垂直切片。由于该切片下方的总面积为 \(f_X(x)\),我们随后除以 \(f_X(x)\),以确保条件 PDF 的面积为 1。因此,对于 \(X\) 支持集内的任何 \(x\),给定 \(X=x\) 时 \(Y\) 的条件 PDF 都满足合法 PDF 的性质。

7.1.17:考虑到对于连续随机变量 \(X\),事件 \(X=x\) 的概率为 0,我们该如何理解以 \(X=x\) 为条件呢?严谨地说,我们实际上是以 \(X\) 落入包含 \(x\) 的一个小区间(例如 \(X \in (x-\epsilon, x+\epsilon)\))为条件,然后取 \(\epsilon\) 从右侧趋于 0 的极限。我们不会在这种技术细节上纠缠;幸运的是,许多重要的结果(如贝叶斯法则)在连续情况下的运作方式完全符合人们的预期。
注意,如果我们拥有条件 PDF \(f_{Y|X}\) 和相应的边缘 PDF \(f_X\),就可以恢复出联合 PDF \(f_{X,Y}\): \[ f_{X,Y}(x,y) = f_{Y|X}(y|x)f_X(x) \]
类似地,如果我们拥有 \(f_{X|Y}\) 和 \(f_Y\),也可以恢复出联合 PDF: \[ f_{X,Y}(x,y) = f_{X|Y}(x|y)f_Y(y) \]
这使我们能够推导出贝叶斯法则和全概率公式(LOTP)的连续版本。连续版本与离散版本类似,只需用概率密度函数代替概率,用积分代替求和。
定理 7.1.18(贝叶斯法则与全概率公式的连续形式):对于连续随机变量 \(X\) 和 \(Y\),我们有如下连续形式的贝叶斯法则: \[ f_{Y|X}(y|x) = \frac{f_{X|Y}(x|y)f_Y(y)}{f_X(x)}, \quad \text{对于 } f_X(x) > 0 \]
以及如下连续形式的全概率公式: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X|Y}(x|y)f_Y(y) \, dy \]
证明:根据条件 PDF 的定义,我们有 \[ f_{Y|X}(y|x)f_X(x) = f_{X,Y}(x,y) = f_{X|Y}(x|y)f_Y(y) \]
两边除以 \(f_X(x)\) 即可直接得出连续版本的贝叶斯法则。
对 \(y\) 进行积分即可直接得出连续版本的全概率公式: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy = \int_{-\infty}^{\infty} f_{X|Y}(x|y)f_Y(y) \, dy \]
出于好奇,让我们看看如果在全概率公式(LOTP)的证明中代入另一个 \(f_{X,Y}(x,y)\) 表达式会发生什么: \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy = \int_{-\infty}^{\infty} f_{Y|X}(y|x)f_X(x) \, dy = f_X(x) \int_{-\infty}^{\infty} f_{Y|X}(y|x) \, dy \]
这仅仅说明了对于任何满足 \(f_X(x) > 0\) 的 \(x\): \[ \int_{-\infty}^{\infty} f_{Y|X}(y|x) \, dy = 1 \]
从而证实了条件 PDF 的积分必须为 1 这一事实。
我们现在已经拥有了针对两个离散随机变量以及两个连续随机变量的贝叶斯法则和全概率公式版本。更好的是,当存在一个离散随机变量和一个连续随机变量时,也存在相应的版本。在理解了离散版本后,由于其他版本都是类似的(只需在适当的时候将概率替换为 PDF),因此很容易记忆和使用。例如,当 \(X\) 为离散型且 \(Y\) 为连续型时,我们有如下版本的全概率公式: \[ P(X=x) = \int_{-\infty}^{\infty} P(X=x|Y=y)f_Y(y) \, dy \]
若令 \(X\) 为事件 \(A\) 的指示随机变量且 \(x=1\),我们就得到了一个基于连续随机变量 \(Y\) 进行条件的通用概率 \(P(A)\) 表达式: \[ P(A) = \int_{-\infty}^{\infty} P(A|Y=y)f_Y(y) \, dy \]
以下是贝叶斯法则的四个版本,总结在下表中:

以下是全概率公式的四个版本,总结在下表中。第一行给出了 \(P(X=x)\) 的表达式,而第二行给出了 \(f_X(x)\) 的表达式:

最后,让我们讨论连续随机变量独立性的定义;随后我们将转向具体实例。与离散情况一样,我们可以从两个角度来看待连续随机变量的独立性。其一是联合 CDF 分解为边缘 CDF 的乘积,或者联合 PDF 分解为边缘 PDF 的乘积。其二是给定 \(X=x\) 时 \(Y\) 的条件 PDF 与 \(Y\) 的边缘 PDF 相同,因此以 \(X\) 为条件不提供关于 \(Y\) 的任何信息。
定义 7.1.19(连续随机变量的独立性):如果对于所有的 \(x\) 和 \(y\),都有 \[ F_{X,Y}(x,y) = F_X(x)F_Y(y) \]
则称随机变量 \(X\) 和 \(Y\) 是独立的。如果 \(X\) 和 \(Y\) 是具有联合 PDF \(f_{X,Y}\) 的连续随机变量,这等价于条件 \[ f_{X,Y}(x,y) = f_X(x)f_Y(y) \]
对于所有的 \(x, y\) 均成立;它也等价于条件 \[ f_{Y|X}(y|x) = f_Y(y) \]
对于所有使得 \(f_X(x) > 0\) 的 \(x, y\) 均成立。
7.1.20:\(Y\) 的边缘 PDF \(f_Y(y)\) 只是关于 \(y\) 的函数;它不能以任何方式依赖于 \(x\)。通常情况下,条件 PDF \(f_{Y|X}(y|x)\) 可以依赖于 \(x\)。只有在独立的特殊情况下,\(f_{Y|X}(y|x)\) 才不含 \(x\)。
有时我们得到的 \(X\) 和 \(Y\) 的联合 PDF 可以分解为一个关于 \(x\) 的函数与一个关于 \(y\) 的函数的乘积,而预先并不知道这些函数是否为边缘 PDF,甚至不知道它们是否为合法的 PDF。接下来的结果处理了这种情况。
命题 7.1.21:假设 \(X\) 和 \(Y\) 的联合 PDF \(f_{X,Y}\) 可以分解为 \[ f_{X,Y}(x,y) = g(x)h(y) \]
对于所有的 \(x\) 和 \(y\) 均成立,其中 \(g\) 和 \(h\) 是非负函数。那么 \(X\) 和 \(Y\) 是独立的。此外,如果 \(g\) 或 \(h\) 之中有一个是合法的 PDF,那么另一个也是合法的 PDF,且 \(g\) 和 \(h\) 分别是 \(X\) 和 \(Y\) 的边缘 PDF。(离散情况下的类似结果也成立。)
证明:令 \(c = \int_{-\infty}^{\infty} h(y) \, dy\)。通过乘以并除以 \(c\),我们可以将联合 PDF 写为 \[ f_{X,Y}(x,y) = cg(x) \cdot \frac{h(y)}{c} \]
(这样做是为了使 \(h(y)/c\) 成为一个合法的 PDF。)那么 \(X\) 的边缘 PDF 为 \[ f_X(x) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dy = cg(x) \int_{-\infty}^{\infty} \frac{h(y)}{c} \, dy = cg(x) \]
由于边缘 PDF 是合法的 PDF,由此可得 \(\int_{-\infty}^{\infty} cg(x) \, dx = 1\)(已知 \(h\) 的积分,我们便免费得到了 \(g\) 的积分!)。那么 \(Y\) 的边缘 PDF 为 \[ f_Y(y) = \int_{-\infty}^{\infty} f_{X,Y}(x,y) \, dx = \frac{h(y)}{c} \int_{-\infty}^{\infty} cg(x) \, dx = \frac{h(y)}{c} \]
因此,\(X\) 和 \(Y\) 是独立的,其 PDF 分别为 \(cg(x)\) 和 \(h(y)/c\)。如果 \(g\) 或 \(h\) 本身已经是合法的 PDF,则 \(c=1\),因此另一个也是合法的 PDF。
7.1.22:在上述命题中,我们需要联合 PDF 在整个 \(\mathbb{R}^2\) 平面的所有 \((x, y)\) 上都能分解为一个关于 \(x\) 的函数与一个关于 \(y\) 的函数的乘积,而不仅仅是在 \(f_{X,Y}(x,y) > 0\) 的点上。接下来的例子说明了其中的原因。
连续联合分布的一个简单情况是联合 PDF 在平面上的某个区域内为常数。在下例中,我们将对比常数分布在正方形上的联合 PDF 与常数分布在圆盘上的联合 PDF。
例 7.1.23(平面区域上的均匀分布):令 \((X, Y)\) 是正方形 \(\{(x,y) : x,y \in [0,1]\}\) 内的一个完全随机点,其含义是 \(X\) 和 \(Y\) 的联合 PDF 在该正方形内为常数,而在其外部为 0: \[ f_{X,Y}(x,y) = \begin{cases} 1 & \text{若 } x,y \in [0,1] \\ 0 & \text{其他} \end{cases} \]
选择常数 1 是为了使联合 PDF 的积分为 1。这种分布被称为该正方形上的均匀分布(Uniform distribution)。
直观上, \(X\) 和 \(Y\) 的边缘分布应该是 \(\text{Unif}(0,1)\),这在直觉上是合理的。我们可以通过计算来验证: \[ f_X(x) = \int_{0}^{1} f_{X,Y}(x,y)dy = \int_{0}^{1} 1dy = 1 \]
对于 \(f_Y\) 的计算也是类似的。此外,\(X\) 和 \(Y\) 是独立的,因为联合概率密度函数(PDF)可以分解为边缘 PDF 的乘积(这仅仅简化为 \(1 = 1 \cdot 1\),但重要的一点是:\(X\) 的值并不会限制 \(Y\) 可能的取值范围)。因此,无论 \(x\) 取何值,在给定 \(X=x\) 的条件下,\(Y\) 的条件分布都是 \(\text{Unif}(0,1)\)。
现在,假设 \((X,Y)\) 是单位圆盘 \(\{(x,y) : x^2 + y^2 \leq 1\}\) 内的一个完全随机点,其联合 PDF 为: \[ f_{X,Y}(x,y) = \begin{cases} \frac{1}{\pi} & \text{若 } x^2 + y^2 \leq 1 \\ 0 & \text{其他} \end{cases} \]
同样,选择常数 \(1/\pi\) 是为了使联合 PDF 的积分等于 1;这个数值源于平面上某个区域内 1 的积分即为该区域的面积。
注意,\(X\) 和 \(Y\) 并不是独立的,因为通常情况下,已知 \(X\) 的值会限制 \(Y\) 可能的取值范围:\(|X|\) 的值越大,\(Y\) 被限制的范围就越小。如果仅仅因为在圆盘内所有 \((x,y)\) 都满足 \(f_{X,Y}(x,y) = g(x)h(y)\)(其中 \(g(x) = 1/\pi\) 和 \(h(y) = 1\) 是常数函数)就断定它们独立,那将是非常严重的错误。从定义上看 \(X\) 和 \(Y\) 不独立,例如:\(f_{X,Y}(0.9,0.9) = 0\),因为 \((0.9,0.9)\) 不在单位圆盘内;但 \(f_X(0.9)f_Y(0.9) \neq 0\),因为 \(0.9\) 在 \(X\) 和 \(Y\) 各自的支撑集内。
此时 \(X\) 的边缘分布为: \[ f_X(x) = \int_{-\sqrt{1-x^2}}^{\sqrt{1-x^2}} \frac{1}{\pi} dy = \frac{2}{\pi}\sqrt{1-x^2}, \quad -1 \leq x \leq 1 \]
基于对称性,\(f_Y(y) = \frac{2}{\pi}\sqrt{1-y^2}\)。请注意,\(X\) 和 \(Y\) 的边缘分布并不是 \([-1,1]\) 上的均匀分布;相反,\(X\) 和 \(Y\) 落在 0 附近的概率比落在 \(\pm 1\) 附近的概率更高。

假设我们观测到 \(X=x\)。如图 7.6 所示,这限制了 \(Y\) 必须落在区间 \([-\sqrt{1-x^2}, \sqrt{1-x^2}]\) 内。具体而言,在给定 \(X=x\) 的条件下,\(Y\) 的条件分布为: \[ f_{Y|X}(y|x) = \frac{f_{X,Y}(x,y)}{f_X(x)} = \frac{1/\pi}{\frac{2}{\pi}\sqrt{1-x^2}} = \frac{1}{2\sqrt{1-x^2}} \]
对于 \(-\sqrt{1-x^2} \leq y \leq \sqrt{1-x^2}\) 成立,其他情况为 0。这个条件 PDF 关于 \(y\) 是一个常数,这告诉我们 \(Y\) 的条件分布是在区间 \([-\sqrt{1-x^2}, \sqrt{1-x^2}]\) 上的均匀分布。条件 PDF 并非与 \(x\) 无关这一事实,再次证实了 \(X\) 和 \(Y\) 并不独立。
通常,对于平面上的一个区域 \(R\),其上的均匀分布被定义为:在 \(R\) 内部联合 PDF 为常数,在 \(R\) 外部为 0。该常数即为 \(R\) 面积的倒数。如果 \(R\) 是矩形 \(\{(x,y) : a \leq x \leq b, c \leq y \leq d\}\),那么 \(X\) 和 \(Y\) 将是独立的;与圆盘不同,矩形的垂直切片看起来都是一样的。但对于任何 \(X\) 的值会限制 \(Y\) 可能取值(或反之亦然)的区域,\(X\) 和 \(Y\) 都不独立。
作为处理联合 PDF 的另一个例子,让我们考虑一个在处理具有不同率参数的指数分布时经常出现的问题。
例 7.1.24(不同率参数的指数分布比较)。设 \(T_1 \sim \text{Expo}(\lambda_1)\) 且 \(T_2 \sim \text{Expo}(\lambda_2)\) 相互独立。求 \(P(T_1 < T_2)\)。例如,\(T_1\) 可以是冰箱的寿命,\(T_2\) 可以是炉灶的寿命(假设我们愿意对它们使用指数分布建模),那么 \(P(T_1 < T_2)\) 就是冰箱先于炉灶发生故障的概率。我们从第 5 章已知 \(\min(T_1, T_2) \sim \text{Expo}(\lambda_1 + \lambda_2)\),这告诉了我们第一件电器发生故障的时间,但我们可能还想知道哪一件电器会先坏。
解:
我们只需要在适当的区域上对 \(T_1\) 和 \(T_2\) 的联合 PDF 进行积分,该区域是所有满足 \(t_1 > 0, t_2 > 0\) 且 \(t_1 < t_2\) 的点 \((t_1, t_2)\)。计算如下: \[ P(T_1 < T_2) = \int_{0}^{\infty} \int_{0}^{t_2} \lambda_1 e^{-\lambda_1 t_1} \lambda_2 e^{-\lambda_2 t_2} dt_1 dt_2 \]
\[ = \int_{0}^{\infty} \left( \int_{0}^{t_2} \lambda_1 e^{-\lambda_1 t_1} dt_1 \right) \lambda_2 e^{-\lambda_2 t_2} dt_2 \]
\[ = \int_{0}^{\infty} (1 - e^{-\lambda_1 t_2}) \lambda_2 e^{-\lambda_2 t_2} dt_2 \]
\[ = 1 - \int_{0}^{\infty} \lambda_2 e^{-(\lambda_1 + \lambda_2)t_2} dt_2 \]
\[ = 1 - \frac{\lambda_2}{\lambda_1 + \lambda_2} = \frac{\lambda_1}{\lambda_1 + \lambda_2} \]
如果我们把 \(\lambda_1\) 和 \(\lambda_2\) 理解为速率,这个结果在直觉上是合理的。例如,如果冰箱的故障率是炉灶的两倍,那么结果表明冰箱先坏的几率(odds)是 2 比 1。作为一个简单的检查,注意当 \(\lambda_1 = \lambda_2\) 时,答案简化为 \(1/2\),根据对称性这必然成立。
得到相同结果的另一种方法是使用全概率公式(LOTP)对 \(T_1\)(或 \(T_2\))进行条件化处理。第三种方法利用关于泊松过程的描述,见第 13 章。
本节的最后一个例子展示了如何利用 \(X\) 和 \(Y\) 的联合分布来推导 \(X\) 和 \(Y\) 的函数的分布。
例 7.1.25(柯西 PDF)。设 \(X\) 和 \(Y\) 为独立同分布的 \(N(0,1)\),令 \(T = X/Y\)。(我们可以随意定义 \(Y=0\) 时 \(T\) 的值;在这种情况下如何定义 \(T\) 对 \(T\) 的分布没有影响,因为 \(P(Y=0)=0\)。)\(T\) 的分布是一个著名的有名分布,称为柯西分布(Cauchy distribution),我们将在后面的章节中再次遇到它。在此期间,求 \(T\) 的 PDF。
解:
我们将先求 \(T\) 的累积分布函数(CDF)表达式,然后通过求导得到 PDF。我们可以写出: \[ F_T(t) = P(T \leq t) = P\left(\frac{X}{Y} \leq t\right) = P\left(\frac{X}{|Y|} \leq t\right) \]
这是因为根据标准正态分布的对称性,随机变量 \(X/Y\) 和 \(X/|Y|\) 是同分布的。现在,由于 \(|Y|\) 是非负的,我们可以在不等式两边同时乘以它而不改变不等号的方向。因此,我们感兴趣的是求: \[ F_T(t) = P(X \leq t|Y|) \]
我们通过在满足 \(X \leq t|Y|\) 的区域上对 \(X\) 和 \(Y\) 的联合 PDF 进行积分来计算这个概率。根据独立性, \(X\) 和 \(Y\) 的联合 PDF 只是其边缘 PDF 的乘积。因此: \[ F_T(t) = P(X \leq t|Y|) \]
\[ = \int_{-\infty}^{\infty} \int_{-\infty}^{t|y|} \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} dx dy \]
注意,内层积分限(\(x\) 的限制)取决于 \(y\),而外层积分限(\(y\) 的限制)不能取决于 \(x\)(有关多重积分的积分限,请参阅数学附录)。通过一些处理,我们可以将二重积分简化为一重积分: \[ F_T(t) = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} \left( \int_{-\infty}^{t|y|} \frac{1}{\sqrt{2\pi}} e^{-x^2/2} dx \right) dy \]
\[ = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} \Phi(t|y|) dy \]
\[ = \frac{2}{\sqrt{2\pi}} \int_{0}^{\infty} e^{-y^2/2} \Phi(ty) dy \]
或者,我们可以不进行二重积分,而是使用某种形式的全概率公式(LOTP)得到相同的结果。令 \(I\) 为事件 \(X \leq t|Y|\) 的指示随机变量,我们再次得到: \[ P(I = 1) = \int_{-\infty}^{\infty} P(I = 1 | Y = y) f_Y(y) dy \]
\[ = \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} \Phi(t|y|) dy \]
到这一步,我们似乎被一个不知道如何计算的积分卡住了。幸运的是,题目要求我们求的是 PDF 而不是 CDF,所以我们不需要计算出积分,而只需对 \(t\) 求导(注意是对 \(t\) 求导,而不是对虚拟变量 \(y\) 求导)。在满足温和的技术条件下,我们被允许交换积分和求导的顺序,这里这些条件是满足的。(这种技术被称为积分符号内求导,简称 DUThIS。)于是 \[ f_T(t) = F'_T(t) = \frac{2}{\pi} \int_{0}^{\infty} \frac{\partial}{\partial t} e^{-y^2/2} \Phi(ty) dy \]
\[ = \frac{2}{\pi} \int_{0}^{\infty} y e^{-y^2/2} \phi(ty) dy \]
\[ = \frac{2}{\pi} \int_{0}^{\infty} y e^{-y^2/2} \frac{1}{\sqrt{2\pi}} e^{-(ty)^2/2} dy \]
\[ = \frac{2}{\pi \sqrt{2\pi}} \int_{0}^{\infty} y e^{-\frac{(1+t^2)y^2}{2}} dy \]
\[ = \frac{1}{\pi(1+t^2)} \]
最后一步使用了代换 \(u = (1+t^2)y^2/2\),\(du = (1+t^2)ydy\)。因此,\(T\) 的 PDF 为: \[ f_T(t) = \frac{1}{\pi(1+t^2)}, \quad t \in \mathbb{R} \]
由于 \[ \int_{-\infty}^{\infty} \frac{1}{1+t^2} dt = \arctan(\infty) - \arctan(-\infty) = \pi \]
我们得到了一个有效的 PDF。如果我们也想得到 CDF,可以在相应的区间上对 PDF 进行积分: \[ F_T(t) = \int_{-\infty}^{t} \frac{1}{\pi(1+u^2)} du = \frac{1}{\pi} \arctan(t) + \frac{1}{2} \]
正如我们所提到的,\(T\) 的分布被称为柯西分布。柯西 PDF 的形状类似于正态分布的钟形曲线,但其尾部衰减到 0 的速度较慢。图 7.7 叠加了柯西分布和标准正态分布的 PDF;柯西 PDF 更厚(更重)的尾部显而易见。

关于柯西分布的一个有趣事实是,尽管 PDF 关于 0 对称,但其期望值并不存在,因为积分 \(\int_{-\infty}^{\infty} \frac{t}{\pi(1+t^2)} dt\) 是发散的:注意对于较大的 \(t\),\(\frac{t}{1+t^2} \approx \frac{1}{t}\),而 \(\int_{1}^{\infty} \frac{1}{t} dt = \infty\)。如果写成 “\(E(X/Y) = E(X)E(1/Y) = 0 \cdot E(1/Y) = 0\)” 将是一个大错,因为 \(E(1/Y)\) 同样不存在。
7.1.3 混合型
Hybrid
我们也可能对一个离散随机变量和一个连续随机变量的联合分布感兴趣。这种情况在讨论贝叶斯定理和全概率公式(LOTP)的四种形式时曾被提及。从概念上讲,它与其他情况类似,但由于符号表示可能比较复杂,我们将通过一个例子来阐明。
例 7.1.26(哪家公司制造了这只灯泡?)。 某只灯泡由两家公司中的一家制造。公司 0 制造的灯泡寿命服从 \(\text{Expo}(\lambda_0)\) 分布,公司 1 制造的灯泡寿命服从 \(\text{Expo}(\lambda_1)\) 分布,且 \(\lambda_0 < \lambda_1\)。这里我们关注的灯泡有 \(p_0\) 的概率由公司 0 制造,有 \(p_1 = 1 - p_0\) 的概率由公司 1 制造,但通过观察灯泡外观,我们无法确定它是由哪家公司制造的。
令 \(T\) 为灯泡的持续时间,\(I\) 为该灯泡是由公司 1 制造的指示变量。
求 \(T\) 的 CDF 和 PDF。
\(T\) 是否具有无记忆性?
在给定 \(T=t\) 的条件下,求 \(I\) 的条件分布。当 \(t \to \infty\) 时,这个结果会发生什么变化?
解:
由于 \(T\) 是连续随机变量而 \(I\) 是离散随机变量,它们的联合分布是混合型的,如图 7.8 所示。在两个连续随机变量的联合 PDF 中,我们可以取无限多个垂直切片,每个切片对应一个不同的条件 PDF。而在本例中,\(T\) 只有两个条件 PDF:一个对应 \(I=0\),另一个对应 \(I=1\)。如题意所述,给定 \(I=0\) 时 \(T\) 的条件分布是 \(\text{Expo}(\lambda_0)\),给定 \(I=1\) 时是 \(\text{Expo}(\lambda_1)\)。\(I\) 的边缘分布是 \(\text{Bern}(p_1)\)。

因此,给定的联合分布信息包括:(1) \(I\) 的边缘分布和 (2) 给定 \(I\) 下 \(T\) 的条件分布。问题要求我们反过来求:(1) \(T\) 的边缘分布和 (2) 给定 \(T\) 下 \(I\) 的条件分布。通过这种方式表述后,显然 LOTP 和贝叶斯定理将是我们的有力工具。
- 这一部分要求我们推导 \(T\) 的边缘分布。对于 CDF,我们利用全概率公式,对 \(I\) 进行条件化: \[ F_T(t) = P(T \leq t) = P(T \leq t | I=0)p_0 + P(T \leq t | I=1)p_1 \]
\[ = (1 - e^{-\lambda_0 t})p_0 + (1 - e^{-\lambda_1 t})p_1 \]
\[ = 1 - p_0 e^{-\lambda_0 t} - p_1 e^{-\lambda_1 t} \]
边缘 PDF 是 CDF 的导数: \[ f_T(t) = p_0 \lambda_0 e^{-\lambda_0 t} + p_1 \lambda_1 e^{-\lambda_1 t}, \quad t > 0 \]
我们也可以直接从“\(X\) 连续,\(Y\) 离散”版本的 LOTP 得到这个结果,虽然我们没有写出该版本 LOTP 的证明,但通过这个例子可以展示该版本的 LOTP 为何有效。
由于 \(\lambda_0 \neq \lambda_1\),上述 PDF 表达式无法简化为 \(\lambda e^{-\lambda t}\) 的形式。因此 \(T\) 的分布不是指数分布,这意味着它不具有无记忆性。(\(T\) 的分布被称为两个指数分布的混合分布。)
使用混合形式的贝叶斯定理(即贝叶斯定理版本对照表中的“\(X\) 连续,\(Y\) 离散”版本),我们有: \[ P(I=1 | T=t) = \frac{f_T(t | I=1) P(I=1)}{f_T(t)} \]
其中 \(f_T(t | I=1)\) 是给定 \(I=1\) 时 \(T\) 的条件 PDF 在 \(t\) 处的取值。利用 \(T|I=1 \sim \text{Expo}(\lambda_1)\) 的事实以及 (a) 中推导出的边缘 PDF: \[ P(I=1 | T=t) = \frac{p_1 \lambda_1 e^{-\lambda_1 t}}{p_0 \lambda_0 e^{-\lambda_0 t} + p_1 \lambda_1 e^{-\lambda_1 t}} \]
\[ = \frac{p_1 \lambda_1}{p_0 \lambda_0 e^{(\lambda_1 - \lambda_0)t} + p_1 \lambda_1} \]
因此,给定 \(T=t\) 时 \(I\) 的条件分布是伯努利分布,其成功概率如上所示。当 \(t \to \infty\) 时,由于 \(\lambda_1 > \lambda_0\),分母中的指数项趋于无穷大,该概率趋于 0。这在直觉上是合理的:灯泡寿命越长,我们就越确信它是由公司 0 制造的,因为该公司的灯泡故障率 \(\lambda\) 更低,预期寿命 \(1/\lambda\) 更高。
7.2 二维无意识统计学家法则
2D LOTUS
二维版本的 LOTUS 允许我们利用 \(X\) 和 \(Y\) 的联合分布,计算作为这两个随机变量函数的随机变量的期望值。
定理 7.2.1 (2D LOTUS)。设 \(g\) 为从 \(\mathbb{R}^2\) 到 \(\mathbb{R}\) 的函数。如果 \(X\) 和 \(Y\) 是离散的,则: \[ E(g(X,Y)) = \sum_x \sum_y g(x,y)P(X=x, Y=y) \]
如果 \(X\) 和 \(Y\) 是连续的,且具有联合 PDF \(f_{X,Y}\),则: \[ E(g(X,Y)) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} g(x,y)f_{X,Y}(x,y)dxdy \]
与其一维对应版本一样,2D LOTUS 让我们免于为了计算期望而必须先求出 \(g(X,Y)\) 的分布。相反,拥有 \(X\) 和 \(Y\) 的联合 PMF 或联合 PDF 就足够了。
2D LOTUS 的一个用途是求两个随机变量之间的预期距离。
例 7.2.2(两个均匀分布变量之间的预期距离)。设 \(X\) 和 \(Y\) 为独立同分布的 \(\text{Unif}(0,1)\) 随机变量。求 \(E(|X-Y|)\)。
解:
由于在单位正方形 \(\{(x,y) : x,y \in [0,1]\}\) 上联合 PDF 为 1,根据 2D LOTUS 可得: \[ E(|X-Y|) = \int_{0}^{1} \int_{0}^{1} |x-y| dx dy \]
\[ = \int_{0}^{1} \int_{y}^{1} (x-y) dx dy + \int_{0}^{1} \int_{0}^{y} (y-x) dx dy \]
\[ = 2 \int_{0}^{1} \int_{y}^{1} (x-y) dx dy = 1/3 \]
首先,我们将积分分成两部分以便去掉绝对值;然后利用了对称性。
顺便提一下,通过解决这个问题,我们也计算出了 \(M = \max(X,Y)\) 和 \(L = \min(X,Y)\) 的期望值。由于 \(M+L\) 与 \(X+Y\) 是同一个随机变量,且 \(M-L\) 与 \(|X-Y|\) 是同一个随机变量,因此: \[ E(M + L) = E(X + Y) = 1 \]
\[ E(M - L) = E(|X - Y|) = 1/3 \]
这是一个包含两个方程和两个未知数的方程组,解得 \(E(M) = 2/3\) 且 \(E(L) = 1/3\)。作为检查,\(E(M)\) 大于 \(E(L)\),这符合逻辑;且 \(E(M)\) 和 \(E(L)\) 距离 \(1/2\) 的长度相等,根据对称性这也理应如此。
例 7.2.3(两个正态分布变量之间的预期距离)。设 \(X, Y \overset{i.i.d.}{\sim} N(0,1)\),求 \(E(|X-Y|)\)。
解:
我们可以再次使用 2D LOTUS,得到: \[ E(|X-Y|) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} |x-y| \frac{1}{\sqrt{2\pi}} e^{-x^2/2} \frac{1}{\sqrt{2\pi}} e^{-y^2/2} dxdy \]
但更简单的解法是利用独立正态变量的和或差仍为正态变量这一事实(我们在第 6 章中利用矩生成函数 MGF 证明过)。由此可知 \(X-Y \sim N(0,2)\),因此我们可以写成 \(X-Y = \sqrt{2}Z\),其中 \(Z \sim N(0,1)\),故 \(E(|X-Y|) = \sqrt{2}E|Z|\)。这样,我们就将一个 2D LOTUS 问题简化为了 1D LOTUS 问题!在例 5.4.7 中已经证明了 \(E|Z| = \sqrt{\frac{2}{\pi}}\),所以: \[ E(|X-Y|) = \frac{2}{\sqrt{\pi}} \]
我们还可以利用 2D LOTUS 来给出期望线性性质的另一种证明。
例 7.2.4(通过 2D LOTUS 证明线性性质)。设 \(X\) 和 \(Y\) 为连续随机变量(类似的方法也适用于离散情况)。根据 2D LOTUS: \[ E(X+Y) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} (x+y)f_{X,Y}(x,y)dxdy \]
\[ = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xf_{X,Y}(x,y)dxdy + \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} yf_{X,Y}(x,y)dxdy \]
\[ = E(X) + E(Y) \]
这是期望线性性质的一个简短证明。在最后一步中,我们使用了 2D LOTUS 以及“\(X\) 是 \(X\) 和 \(Y\) 的函数”这一事实(在此情况下该函数是退化的,因为它不涉及 \(Y\)),对 \(Y\) 的处理同理。得到最后一步的另一种方法是写出: \[ \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} yf_{X,Y}(x,y)dxdy = \int_{-\infty}^{\infty} y \left( \int_{-\infty}^{\infty} f_{X,Y}(x,y)dx \right) dy = \int_{-\infty}^{\infty} yf_Y(y)dy = E(Y) \]
这里我们将 \(y\) 从内层积分中提取出来(因为在对 \(x\) 积分时 \(y\) 被视为常数),然后识别出这就是 \(Y\) 的边缘 PDF。对于 \(E(X)\) 项,我们可以先交换积分顺序,从 \(dxdy\) 改为 \(dydx\),然后应用与 \(E(Y)\) 项相同的论证。
7.3 协方差与相关系数
Covariance and correlation
正如均值和方差为单个随机变量的分布提供了单数值概括一样,协方差是两个随机变量联合分布的单数值概括。粗略地说,协方差衡量了两个随机变量相对于其均值一起上升或下降的趋势:\(X\) 与 \(Y\) 之间的正协方差表明当 \(X\) 上升时,\(Y\) 也倾向于上升;负协方差则表明当 \(X\) 上升时,\(Y\) 倾向于下降。以下是准确定义。
定义 7.3.1(协方差)。随机变量 \(X\) 和 \(Y\) 之间的协方差为: \[ \text{Cov}(X,Y) = E((X-EX)(Y-EY)) \]
将其展开并利用线性性质,我们得到一个等价表达式: \[ \text{Cov}(X,Y) = E(XY) - E(X)E(Y) \]
个人注:以上为什么成立?
关键在于理解:\(EX\) 和 \(EY\) 是具体的数值(常数),而不是随机变量。根据性质 \(E(cX) = cE(X)\),我们可以把它们移到 \(E\) 符号外面:
- \(E(X \cdot EY) = EY \cdot E(X)\)
- \(E(EX \cdot Y) = EX \cdot E(Y)\)
- \(E(EX \cdot EY) = EX \cdot EY\)(常数的期望等于常数本身)
让我们从直觉上思考这个定义。如果 \(X\) 和 \(Y\) 倾向于向相同方向移动,那么 \(X-EX\) 和 \(Y-EY\) 往往会同为正或同为负,因此 \((X-EX)(Y-EY)\) 的平均值将为正,从而产生正协方差。如果 \(X\) 和 \(Y\) 倾向于向相反方向移动,那么 \(X-EX\) 和 \(Y-EY\) 往往具有相反的符号,从而产生负协方差。
如果 \(X\) 和 \(Y\) 独立,则它们的协方差为零。我们称协方差为零的随机变量为不相关。
定理 7.3.2。如果 \(X\) 和 \(Y\) 独立,则它们是不相关的。
证明。我们以 \(X\) 和 \(Y\) 为具有 PDF \(f_X\) 和 \(f_Y\) 的连续随机变量为例进行证明。由于 \(X\) 和 \(Y\) 独立,其联合 PDF 是边缘 PDF 的乘积。根据 2D LOTUS: \[ E(XY) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} xyf_X(x)f_Y(y)dxdy \]
\[ = \int_{-\infty}^{\infty} yf_Y(y) \left( \int_{-\infty}^{\infty} xf_X(x)dx \right) dy \]
\[ = \int_{-\infty}^{\infty} xf_X(x)dx \int_{-\infty}^{\infty} yf_Y(y)dy \]
\[ = E(X)E(Y) \]
离散情况下的证明过程相同,只需将 PDF 替换为 PMF。
该定理的逆命题是错误的:仅仅因为 \(X\) 和 \(Y\) 不相关,并不意味着它们独立。例如,设 \(X \sim N(0,1)\),令 \(Y = X^2\)。由于标准正态分布的所有奇数阶矩因对称性都等于 0,因此 \(E(XY) = E(X^3) = 0\)。于是 \(X\) 和 \(Y\) 是不相关的: \[ \text{Cov}(X,Y) = E(XY) - E(X)E(Y) = 0 - 0 = 0 \]
但它们显然不是独立的:\(Y\) 是 \(X\) 的函数,因此已知 \(X\) 就提供了关于 \(Y\) 的完美信息。协方差是线性相关性的度量,因此随机变量可以以非线性方式相关,但协方差仍为零,正如本例所示。图 7.9 的右下角散点图显示了本例中 \(X\) 和 \(Y\) 的联合分布抽样情况。其他三张图分别展示了正相关、负相关和独立。
个人注:两个变量独立是h指互相不提供额外信息;相关(协方差为0)表示是两者线性相关。
详见文件《独立和相关的区别.md》

协方差具有以下关键性质:
\(\text{Cov}(X,X) = \text{Var}(X)\)。
\(\text{Cov}(X,Y) = \text{Cov}(Y,X)\)。
对于任何常数 \(c\),\(\text{Cov}(X,c) = 0\)。
对于任何常数 \(a\),\(\text{Cov}(aX,Y) = a\text{Cov}(X,Y)\)
\(\text{Cov}(X+Y,Z) = \text{Cov}(X,Z) + \text{Cov}(Y,Z)\)
如下:
\[ \begin{aligned} & \text{Cov}(X+Y,Z+W) = \text{Cov}(X,Z) + \text{Cov}(X,W) + \text{Cov}(Y,Z) + \text{Cov}(Y,W) \hspace{100cm} \end{aligned} \]
- 如下
\[ \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y) \]
对于 \(n\) 个随机变量 \(X_1, \dots, X_n\): \[ \text{Var}(X_1 + \dots + X_n) = \sum_{i=1}^{n} \text{Var}(X_i) + 2 \sum_{i < j} \text{Cov}(X_i, X_j) \]
前五条性质可以很容易地从定义和期望的基本性质中得出。性质 6 可以通过性质 2 和性质 5 展开得出: \[ \text{Cov}(X+Y,Z+W) = \text{Cov}(X,Z+W) + \text{Cov}(Y,Z+W) \]
\[ = \text{Cov}(Z+W,X) + \text{Cov}(Z+W,Y) \]
\[ = \text{Cov}(Z,X) + \text{Cov}(W,X) + \text{Cov}(Z,Y) + \text{Cov}(W,Y) \]
\[ = \text{Cov}(X,Z) + \text{Cov}(X,W) + \text{Cov}(Y,Z) + \text{Cov}(Y,W) \]
性质 7 的推导方法是将随机变量的方差写成其自身与自身的协方差(根据性质 1),然后重复使用性质 6。
我们现在兑现了第 4 章中的承诺,即对于独立随机变量,和的方差等于方差的和: \[ \text{Var} \left( \sum_{j=1}^{n} X_j \right) = \sum_{j=1}^{n} \text{Var}(X_j) \]
根据定理 7.3.2,独立随机变量是不相关的,因此在这种情况下,性质 7 表达式中所有的协方差项都消失了。
如果 \(X\) 和 \(Y\) 独立,那么协方差的性质给出: \[ \text{Var}(X-Y) = \text{Var}(X) + \text{Var}(-Y) = \text{Var}(X) + \text{Var}(Y) \]
常见的错误是认为 “\(\text{Var}(X-Y) = \text{Var}(X) - \text{Var}(Y)\)”;这是一种范畴错误,因为 \(\text{Var}(X) - \text{Var}(Y)\) 可能是负数。对于一般的 \(X\) 和 \(Y\),我们有: \[ \text{Var}(X-Y) = \text{Var}(X) + \text{Var}(Y) - 2\text{Cov}(X,Y) \]
由于协方差取决于 \(X\) 和 \(Y\) 的测量单位——如果我们决定用厘米而不是米来测量 \(X\),协方差将乘以 100——因此解释协方差的一个无单位版本(称为相关系数)会更容易。
定义 7.3.4(相关系数)。随机变量 \(X\) 和 \(Y\) 之间的相关系数为: \[ \text{Corr}(X,Y) = \frac{\text{Cov}(X,Y)}{\sqrt{\text{Var}(X)\text{Var}(Y)}} \]
(在退化情况 \(\text{Var}(X) = 0\) 或 \(\text{Var}(Y) = 0\) 时,该定义无意义。)
注意,对 \(X\) 和 \(Y\) 进行平移和缩放不会影响它们的相关系数。平移不会改变 \(\text{Cov}(X,Y)\)、\(\text{Var}(X)\) 或 \(\text{Var}(Y)\),因此相关系数保持不变。至于缩放,由于我们除以了 \(X\) 和 \(Y\) 的标准差,这确保了比例因子会被抵消: \[ \text{Corr}(cX,Y) = \frac{\text{Cov}(cX,Y)}{\sqrt{\text{Var}(cX)\text{Var}(Y)}} = \frac{c\text{Cov}(X,Y)}{\sqrt{c^2\text{Var}(X)\text{Var}(Y)}} = \text{Corr}(X,Y) \]
相关系数便于解释,因为它不依赖于测量单位,且始终在 \(-1\) 到 \(1\) 之间。
定理 7.3.5(相关系数边界)。对于任何随机变量 \(X\) 和 \(Y\): \[ -1 \leq \text{Corr}(X,Y) \leq 1 \]
证明。不失一般性,我们可以假设 \(X\) 和 \(Y\) 的方差均为 1,因为缩放不改变相关系数。令 \(\rho = \text{Corr}(X,Y) = \text{Cov}(X,Y)\)。利用方差非负的性质以及协方差的性质 7,我们有: \[ \text{Var}(X+Y) = \text{Var}(X) + \text{Var}(Y) + 2\text{Cov}(X,Y) = 2 + 2\rho \geq 0 \]
\[ \text{Var}(X-Y) = \text{Var}(X) + \text{Var}(Y) - 2\text{Cov}(X,Y) = 2 - 2\rho \geq 0 \]
因此,\(-1 \leq \rho \leq 1\)。
下面是一个如何计算协方差和相关系数的例子。
例 7.3.6(指数分布的最大值与最小值)。设 \(X\) 和 \(Y\) 是独立同分布的 \(\text{Expo}(1)\) 随机变量。求 \(\max(X,Y)\) 和 \(\min(X,Y)\) 之间的相关系数。
解:
令 \(M = \max(X,Y)\),\(L = \min(X,Y)\)。根据无记忆性和第 5 章的结果,我们知道 \(L \sim \text{Expo}(2)\),\(M-L \sim \text{Expo}(1)\),且 \(M-L\) 与 \(L\) 相互独立(见例 5.6.5)。因此: \[ \text{Cov}(M,L) = \text{Cov}(M-L+L, L) = \text{Cov}(M-L, L) + \text{Cov}(L, L) = 0 + \text{Var}(L) = \frac{1}{4} \]
\[ \text{Var}(M) = \text{Var}(M-L+L) = \text{Var}(M-L) + \text{Var}(L) = 1 + \frac{1}{4} = \frac{5}{4} \]
以及 \[ \text{Corr}(M,L) = \frac{\text{Cov}(M,L)}{\sqrt{\text{Var}(M)\text{Var}(L)}} = \frac{1/4}{\sqrt{5/4 \cdot 1/4}} = \frac{1}{\sqrt{5}} \]
7.3.7 在上述例子中,相关系数为正是有道理的,因为 \(M\) 被限制为至少与 \(L\) 一样大。以下论证将是一个大错:“要么 \(M=X, L=Y\),要么 \(M=Y, L=X\),所以要么 \(\text{Cov}(M,L) = \text{Cov}(X,Y)\),要么 \(\text{Cov}(M,L) = \text{Cov}(Y,X)\)。但由于 \(\text{Cov}(Y,X) = \text{Cov}(X,Y)\),所以我们总有 \(\text{Cov}(M,L) = \text{Cov}(X,Y) = 0\)。” 虽然“要么 \(M=X, L=Y\) 发生,要么 \(M=Y, L=X\) 发生”是对的,但这些是事件,而不是确定性的情况。如果使用条件概率仔细书写,该论证就会崩塌。
协方差的性质也是计算方差的有力工具,特别是当所关注的随机变量是相关随机变量之和时。下一个例子利用协方差的性质推导超几何分布的方差。如果你做过第 4 章的练习 48,可以对比这两个推导过程。
例 7.3.8(超几何分布的方差)。设 \(X \sim \text{HGeom}(w,b,n)\),求 \(\text{Var}(X)\)。
解:
将 \(X\) 视为从装有 \(w\) 个白球和 \(b\) 个黑球的瓮中抽取大小为 \(n\) 的样本时,样本中白球的数量。我们可以将 \(X\) 表示为指示随机变量之和:\(X = I_1 + \dots + I_n\),其中 \(I_j\) 是样本中第 \(j\) 个球为白球的指示变量。每个 \(I_j\) 的均值为 \(p = w/(w+b)\),方差为 \(p(1-p)\)。但由于 \(I_j\) 之间是相关的,我们不能简单地将它们的方差相加。相反,我们应用协方差的性质: \[ \text{Var}(X) = \text{Var} \left( \sum_{j=1}^{n} I_j \right) \]
\[ = \text{Var}(I_1) + \dots + \text{Var}(I_n) + 2 \sum_{i<j} \text{Cov}(I_i, I_j) \]
\[ = np(1-p) + 2 \binom{n}{2} \text{Cov}(I_1, I_2) \]
基于对称性,所有 \(\binom{n}{2}\) 对指示变量都具有相同的协方差。现在我们只需要求出 \(\text{Cov}(I_1, I_2)\)。根据基本桥梁(fundamental bridge): \[ \text{Cov}(I_1, I_2) = E(I_1 I_2) - E(I_1) E(I_2) \]
\[ = P(\text{第 1 个和第 2 个球均为白球}) - P(\text{第 1 个球为白球}) P(\text{第 2 个球为白球}) \]
\[ = \frac{w}{w+b} \cdot \frac{w-1}{w+b-1} - p^2 \]
将此结果代入上述公式并化简,最终我们得到: \[ \text{Var}(X) = \frac{N-n}{N-1} np(1-p) \]
其中 \(N = w+b\)。这与二项分布的方差 \(np(1-p)\) 相比,多了一个因子 \(\frac{N-n}{N-1}\),该因子被称为有限总体修正系数(finite population correction)。这种差异源于以下事实:在二项分布模型中,我们是有放回抽样,因此同一个球可以被多次抽到;而在超几何分布模型中,我们是无放回抽样,因此每个球在样本中最多出现一次。
如果我们认为 \(N\) 是瓮中的“总体规模”,那么当 \(N\) 相对于样本量 \(n\) 变得非常大时,在有放回抽样中多次抽到同一个球的可能性变得极小。因此,在 \(n\) 固定且 \(N \to \infty\) 的极限情况下,有放回抽样和无放回抽样变得等效,有限总体修正系数也趋近于 1。
另一种有放回和无放回抽样等效的简单情况是只从瓮中抽取一个球,事实上,当 \(n=1\) 时,有限总体修正系数也等于 1。
本章的最后两节将介绍多项分布(Multinomial distribution)和多元正态分布(Multivariate Normal distribution)。多项分布是最著名的离散多元分布,而多元正态分布则是最著名的连续多元分布。
7.4 多项分布
Multinomial
多项分布是二项分布的推广。二项分布是在固定次数的试验中统计“成功”的次数,且试验结果只能分为“成功”或“失败”;而多项分布则记录试验结果可以落入多个类别的情况,例如:优秀、合格、差;或者红、黄、蓝、绿。
故事 7.4.1(多项分布)。将 \(n\) 个对象中的每一个独立地放入 \(k\) 个类别之一。一个对象被放入第 \(j\) 个类别的概率为 \(p_j\),其中 \(p_j\) 非负且 \(\sum_{j=1}^k p_j = 1\)。令 \(X_1\) 为类别 1 中的对象数量,\(X_2\) 为类别 2 中的对象数量,依此类推,使得 \(X_1 + \dots + X_k = n\)。那么称 \(X = (X_1, \dots, X_k)\) 服从参数为 \(n\) 和 \(p = (p_1, \dots, p_k)\) 的多项分布。我们记作 \(X \sim \text{Mult}_k(n, p)\)。
我们称 \(X\) 为随机向量,因为它是一个由随机变量构成的向量。\(X\) 的联合 PMF 可以根据上述故事推导出来。
定理 7.4.2(多项分布联合 PMF)。若 \(X \sim \text{Mult}_k(n, p)\),则 \(X\) 的联合 PMF 为: \[ P(X_1 = n_1, \dots, X_k = n_k) = \frac{n!}{n_1! n_2! \dots n_k!} p_1^{n_1} p_2^{n_2} \dots p_k^{n_k} \]
其中 \(n_1, \dots, n_k\) 满足 \(n_1 + \dots + n_k = n\)。
证明:如果 \(n_1, \dots, n_k\) 之和不等于 \(n\),那么事件 \(\{X_1 = n_1, \dots, X_k = n_k\}\) 是不可能发生的:每个对象都必须有去处,且新对象不会凭空出现。如果 \(n_1, \dots, n_k\) 之和确实等于 \(n\),那么将 \(n_1\) 个对象放入类别 1、\(n_2\) 个对象放入类别 2 等任何一种特定方式的概率均为 \(p_1^{n_1} p_2^{n_2} \dots p_k^{n_k}\)。正如例 1.4.18 在讨论重新排列 “STATISTICS” 字母时所述,这样做的组合方式共有: \[ \frac{n!}{n_1! n_2! \dots n_k!} \]
种。因此,联合 PMF 正如所言。
既然我们已经确定了 \(X\) 的联合分布,我们就拥有足够的信息来确定边缘分布、条件分布以及 \(X\) 任何两个分量之间的协方差。
让我们逐一分析,首先是 \(X_j\)(即 \(X\) 的第 \(j\) 个分量)的边缘分布。如果我们盲目地应用定义,我们将不得不对除 \(X_j\) 之外的所有分量进行联合 PMF 的求和。说得委婉一点,这 \(k-1\) 层求和的前景令人不悦。幸运的是,如果我们利用多项分布的故事,就可以避免枯燥的计算:\(X_j\) 是落入类别 \(j\) 的对象数量,其中 \(n\) 个对象中的每一个都独立地以概率 \(p_j\) 属于类别 \(j\)。我们将“落入类别 \(j\)”定义为成功,那么这仅仅是 \(n\) 次独立的伯努利试验,因此 \(X_j\) 的边缘分布是 \(\text{Bin}(n, p_j)\)。
定理 7.4.3(多项分布的边缘分布)。多项分布的边缘分布是二项分布。具体而言,若 \(X \sim \text{Mult}_k(n, p)\),则 \(X_j \sim \text{Bin}(n, p_j)\)。
更一般地,每当我们把多项随机向量中的多个类别合并在一起时,会得到另一个多项随机向量。例如,假设我们在一个拥有 5 个政党的国家随机抽取 \(n\) 个人。(如果是无放回抽样,这 \(n\) 次试验并非相互独立,但正如我们在定理 3.9.3 和例 7.3.8 中讨论过的,只要总体规模相对于样本量足够大,独立性就是一个很好的近似。)令 \[ X = (X_1, \dots, X_5) \sim \text{Mult}_5(n, (p_1, \dots, p_5)) \]
代表样本的党派归属,即 \(X_j\) 是样本中支持第 \(j\) 党的人数。
假设第 1 党和第 2 党是主要政党,而第 3 到第 5 党是次要的小党。如果我们决定不再追踪所有 5 个政党,而只想统计属于第 1 党、第 2 党或“其他”党派的人数,那么我们可以定义一个新的随机向量,将所有小党合并为一个类别: \[ Y = (X_1, X_2, X_3 + X_4 + X_5) \]
根据多项分布的故事: \[ Y \sim \text{Mult}_3(n, (p_1, p_2, p_3 + p_4 + p_5)) \]
当然,这种合并类别的思想适用于任何多项分布,而不仅仅局限于政党的背景。
定理 7.4.4(多项分布的合并性)。若 \(X \sim \text{Mult}_k(n, p)\),则对于任何不同的 \(i\) 和 \(j\),\(X_i + X_j \sim \text{Bin}(n, p_i + p_j)\)。通过合并类别 \(i\) 和 \(j\) 得到的计数随机向量仍然服从多项分布。例如,合并类别 1 和 2 得到: \[ (X_1 + X_2, X_3, \dots, X_k) \sim \text{Mult}_{k-1}(n, (p_1 + p_2, p_3, \dots, p_k)) \]
现在来看条件分布。假设我们观测到了 \(X_1\)(落入类别 1 的对象数量),并希望更新其他类别 \((X_2, \dots, X_k)\) 的分布。一种方法是使用条件 PMF 的定义: \[ P(X_2 = n_2, \dots, X_k = n_k | X_1 = n_1) = \frac{P(X_1 = n_1, X_2 = n_2, \dots, X_k = n_k)}{P(X_1 = n_1)} \]
分子是多项分布的联合 PMF,分母是 \(X_1\) 的边缘 PMF,这两者我们都已经推导过了。然而,我们更倾向于利用多项分布的故事,不通过代数运算直接推导 \((X_2, \dots, X_k)\) 的条件分布。已知有 \(n_1\) 个对象落入类别 1,剩下的 \(n - n_1\) 个对象将独立地落入第 2 到第 \(k\) 类。根据贝叶斯定理,落入第 \(j\) 类的条件概率为: \[ P(\text{在类别 } j | \text{不在类别 } 1) = \frac{P(\text{在类别 } j)}{P(\text{不在类别 } 1)} = \frac{p_j}{p_2 + \dots + p_k} \]
对于 \(j = 2, \dots, k\) 成立。这在直觉上是合理的:更新后的概率与原始概率 \((p_2, \dots, p_k)\) 成比例,但必须经过重新归一化以产生一个有效的概率向量。综上所述,我们得到如下结果。
定理 7.4.5(多项分布的条件化)。若 \(X \sim \text{Mult}_k(n, p)\),则: \[ (X_2, \dots, X_k) \mid X_1 = n_1 \sim \text{Mult}_{k-1}(n - n_1, (p'_2, \dots, p'_k)) \]
其中 \(p'_j = p_j / (p_2 + \dots + p_k)\)。
最后,我们知道多项随机向量中的各个分量是相关的,因为它们受到约束 \(X_1 + \dots + X_k = n\) 的限制。为了求 \(X_i\) 与 \(X_j\) 之间的协方差,我们可以利用刚才讨论过的边缘分布和合并性质。
定理 7.4.6(多项分布中的协方差)。设 \((X_1, \dots, X_k) \sim \text{Mult}_k(n, p)\),其中 \(p = (p_1, \dots, p_k)\)。对于 \(i \neq j\),\(\text{Cov}(X_i, X_j) = -np_i p_j\)。
证明:为了具体起见,令 \(i = 1\) 且 \(j = 2\)。利用合并性质和多项分布的边缘分布,我们知道 \(X_1 + X_2 \sim \text{Bin}(n, p_1 + p_2)\),\(X_1 \sim \text{Bin}(n, p_1)\),且 \(X_2 \sim \text{Bin}(n, p_2)\)。因此: \[ \text{Var}(X_1 + X_2) = \text{Var}(X_1) + \text{Var}(X_2) + 2\text{Cov}(X_1, X_2) \]
变为: \[ n(p_1 + p_2)(1 - (p_1 + p_2)) = np_1(1 - p_1) + np_2(1 - p_2) + 2\text{Cov}(X_1, X_2) \]
解得 \(\text{Cov}(X_1, X_2) = -np_1 p_2\)。同理,对于 \(i \neq j\),有 \(\text{Cov}(X_i, X_j) = -np_i p_j\)。
正如我们所预料的,这些分量是负相关的:如果我们知道落入类别 \(i\) 的对象很多,那么剩下可能落入类别 \(j\) 的对象就会变少。练习 65 要求使用指示变量给出该结果的另一种证明。
7.4.7(独立的试验但相关的分量)。多项分布的 \(k\) 个分量是相关的,但多项分布故事中的 \(n\) 个对象是独立分类的。在 \(k = 2\) 的极端情况下,\(\text{Mult}_k(n, p)\) 随机向量看起来像 \((X, n - X)\),其中 \(X \sim \text{Bin}(n, p_1)\),我们可以将其视为(成功次数,失败次数),其中“成功”定义为获得类别 1。尽管试验是独立的,但成功次数与失败次数之间是完全负相关的。
我们以一个涉及多项分布许多重要概念的精彩例子来结束本节。
例 7.4.8(统计女侠)。超级英雄统计女侠(Statwoman)利用概率和统计学打击犯罪。她与无数敌人作战,有时甚至同时与几个敌人交战。不过为了简单起见,假设她的每一场战斗都恰好与以下对手之一进行:混杂者(Confounder)、外推者(Extrapolator)和过拟合者(Overfitter)。
假设统计女侠明年将进行 \(n\) 场战斗(\(n\) 为正整数),且每场战斗独立地以概率 \(p_1\) 与混杂者进行,概率 \(p_2\) 与外推者进行,概率 \(p_3\) 与过拟合者进行。这里 \(p_1, p_2, p_3\) 为非负数且和为 1。令 \(X_1, X_2, X_3\) 分别为统计女侠明年与混杂者、外推者和过拟合者作战的次数。
求 \(X_1, X_2, X_3\) 的联合分布。
求 \(X_1\) 与 \(X_2\) 之间的相关系数。
仅针对本小问,假设外推者和过拟合者一直在合谋诡计,因此研究他们与统计女侠的小规模冲突总数很有意义。令 \(X_{23} = X_2 + X_3\)。求 \(X_1, X_{23}\) 的联合分布。
仅针对本小问,假设参数 \(p_1, p_2, p_3\) 未知,\(n = 360\),且观测到统计女侠恰好有 36 场战斗是与过拟合者进行的。估计 \(p_3\) 的一种自然方法是使用 \(36/360 = 0.1\)。\(p_3\) 的极大似然估计值(MLE)是使得观测数据 \(X_3 = 36\) 出现概率最大的 \(p_3\) 值。也就是说,MLE 是使 \(P(X_3 = 36)\) 最大化的 \(p_3\) 值。证明该 MLE 正是这个自然的估计值 0.1。
仅针对本小问,假设经过英勇努力,过拟合者已被捕!因此假设统计女侠明年的所有战斗都将与另外两个对手之一进行。在给定 \(X_3 = 0\) 的条件下,求 \(X_1, X_2\) 的联合 PMF。
现在假设战斗次数不再是一个常数 \(n\),而是服从 \(N \sim \text{Pois}(\lambda)\)。求 \(X_1, X_2, X_3\) 的联合分布。
解:
根据多项分布的故事,\((X_1, X_2, X_3) \sim \text{Mult}_3(n, (p_1, p_2, p_3))\)。
我们已知 \(X_1 \sim \text{Bin}(n, p_1)\),\(X_2 \sim \text{Bin}(n, p_2)\),且 \(\text{Cov}(X_1, X_2) = -np_1 p_2\),因此: \[ \text{Corr}(X_1, X_2) = \frac{\text{Cov}(X_1, X_2)}{\text{SD}(X_1)\text{SD}(X_2)} \]
\[ = \frac{-np_1 p_2}{\sqrt{np_1(1-p_1)np_2(1-p_2)}} \]
\[ = -\sqrt{\frac{p_1 p_2}{(1-p_1)(1-p_2)}} \]
根据多项分布的合并性质: \[ (X_1, X_{23}) \sim \text{Mult}_2(n, (p_1, p_2 + p_3)) \]
一般地,对于 \(X \sim \text{Bin}(n, p)\),如果观测到 \(X=x\),则 \(p\) 的极大似然估计(MLE)是使以下函数最大化的 \(p\) 值: \[ L(p) = \binom{n}{x} p^x (1-p)^{n-x} \]
(在统计学中,函数 \(L\) 被称为似然函数。它是数据的概率,被视为参数的函数,而数据被视为固定的。)
在处理正数乘积时,取对数通常很有帮助。由于对数(log)是连续且严格增函数,这等价于寻找使下式最大化的值 \(\hat{p}\): \[ \log L(p) = \log \binom{n}{x} + x \log p + (n-x) \log(1-p) \]
将 \(\log L(p)\) 对 \(p\) 求导(将 \(x\) 视为常数)并令其等于 0: \[ \frac{x}{\hat{p}} - \frac{n-x}{1-\hat{p}} = 0 \]
整理得 \(\hat{p} = x/n\)。由于 \(\log L(p)\) 的二阶导数为: \[ -\frac{x}{p^2} - \frac{n-x}{(1-p)^2} < 0 \]
可知我们找到了最大值。因此,\(p_3\) 的极大似然估计为 \(\hat{p}_3 = 36/360 = 0.1\)。
根据多项分布条件化的结果: \[ (X_1, X_2) \mid (X_3 = 0) \sim \text{Mult}_2 \left( n, \left( \frac{p_1}{p_1+p_2}, \frac{p_2}{p_1+p_2} \right) \right) \]
仿照(chicken-egg)故事的推理: \[ P(X_1 = x_1, X_2 = x_2, X_3 = x_3) = \sum_{n=0}^{\infty} P(X_1 = x_1, X_2 = x_2, X_3 = x_3 \mid N=n) P(N=n) \]
在这个级数中,除了 \(n = x_1 + x_2 + x_3\) 的那一项外,其余各项均为 0。对于这个特定的 \(n\) 值: \[ P(X_1 = x_1, X_2 = x_2, X_3 = x_3) = P(X_1 = x_1, X_2 = x_2, X_3 = x_3 \mid N=n) P(N=n) \]
\[ = \frac{n!}{x_1! x_2! x_3!} p_1^{x_1} p_2^{x_2} p_3^{x_3} \cdot \frac{e^{-\lambda} \lambda^n}{n!} \]
\[ = \frac{e^{-\lambda p_1} (\lambda p_1)^{x_1}}{x_1!} \cdot \frac{e^{-\lambda p_2} (\lambda p_2)^{x_2}}{x_2!} \cdot \frac{e^{-\lambda p_3} (\lambda p_3)^{x_3}}{x_3!} \]
对于所有非负整数 \(x_1, x_2, x_3\) 均成立。因此,\(X_1, X_2, X_3\) 相互独立,且 \(X_j \sim \text{Pois}(\lambda p_j)\)。这一结果是“chicken-egg”故事在多项分布上的扩展。
7.5 多元正态分布
Multivariate Normal
多元正态分布是一种连续多元分布,它将正态分布推广到了高维空间。我们不会去处理多元正态分布那相当笨重的联合 PDF。相反,我们通过它与普通正态分布的关系来定义多元正态分布。
定义 7.5.1(多元正态分布)。一个 \(k\) 维随机向量 \(X = (X_1, \dots, X_k)\) 被称为服从多元正态(MVN)分布,如果 \(X_j\) 的每一个线性组合都服从正态分布。也就是说,我们要求对于任何常数 \(t_1, \dots, t_k\), \[ t_1X_1 + \dots + t_kX_k \]
都必须服从正态分布。如果 \(t_1X_1 + \dots + t_kX_k\) 是一个常数(例如当所有 \(t_i = 0\) 时),我们仍认为它服从正态分布,尽管那是方差为 0 的退化正态分布。一个重要的特例是 \(k=2\);这种分布被称为二元正态(BVN)分布。
如果 \((X_1, \dots, X_k)\) 是 MVN,那么 \(X_1\) 的边缘分布是正态的,因为我们可以令 \(t_1=1\) 而令所有其他 \(t_j=0\)。类似地,每个 \(X_j\) 的边缘分布都是正态的。然而,逆命题是错误的:可能存在随机变量 \(X_1, \dots, X_k\) 各自服从正态分布,但 \((X_1, \dots, X_k)\) 却不是多元正态分布。
例 7.5.2(非 MVN 的例子)。这里有一个例子,展示了两个边缘分布为正态但联合分布不是二元正态的随机变量。设 \(X \sim N(0,1)\),并令 \[ S = \begin{cases} 1 & \text{概率为 } 1/2 \\ -1 & \text{概率为 } 1/2 \end{cases} \]
为一个独立于 \(X\) 的随机符号。那么由于正态分布的对称性,\(Y = SX\) 是一个标准正态随机变量(见第 5 章练习 30)。然而,\((X,Y)\) 不是二元正态分布,因为 \(P(X+Y=0) = P(S=-1) = 1/2\),这意味着 \(X+Y\) 不可能是正态分布的(事实上,它不服从任何连续分布)。由于 \(X+Y\) 是 \(X\) 和 \(Y\) 的一个不服从正态分布的线性组合,因此 \((X,Y)\) 不是二元正态分布。
例 7.5.3(真正的 MVN)。对于独立同分布的 \(Z, W \sim N(0,1)\),\((Z,W)\) 是二元正态分布,因为独立正态变量之和仍为正态。同样,\((Z+2W, 3Z+5W)\) 也是二元正态分布,因为任意线性组合 \[ t_1(Z+2W) + t_2(3Z+5W) \]
也可以写成 \(Z\) 和 \(W\) 的线性组合: \[ (t_1 + 3t_2)Z + (2t_1 + 5t_2)W \]
而这显然是正态分布。
上述例子表明,如果我们从一个多元正态分布开始,并对其分量进行线性组合,就会形成一个新的多元正态分布。接下来的两个定理指出,我们还可以通过取子集和拼接操作,从旧的 MVN 产生新的 MVN。
定理 7.5.4。如果 \((X_1, X_2, X_3)\) 是多元正态分布,那么其子向量 \((X_1, X_2)\) 也是多元正态分布。
证明:任何线性组合 \(t_1X_1 + t_2X_2\) 都可以被视为 \(X_1, X_2, X_3\) 的线性组合,其中 \(X_3\) 的系数为 0。因此对于所有的 \(t_1, t_2\),\(t_1X_1 + t_2X_2\) 都是正态分布,这证明了 \((X_1, X_2)\) 是 MVN。
定理 7.5.5。若 \(X = (X_1, \dots, X_n)\) 和 \(Y = (Y_1, \dots, Y_m)\) 是多元正态随机向量,且 \(X\) 与 \(Y\) 相互独立,则拼接后的随机向量 \(W = (X_1, \dots, X_n, Y_1, \dots, Y_m)\) 也是多元正态分布。
个人注:定理 7.5.5 给出的只是保证拼接结果是多元正态的一个充分条件(独立就一定行),但它并没有排除“不独立也可以”的可能性。(充分条件非必要条件)
证明:任何线性组合 \(s_1X_1 + \dots + s_nX_n + t_1Y_1 + \dots + t_mY_m\) 都是正态分布,因为 \(s_1X_1 + \dots + s_nX_n\) 和 \(t_1Y_1 + \dots + t_mY_m\) 均服从正态分布(根据 MVN 的定义)且相互独立,因此它们的和也是正态分布(如第 6 章中利用 MGF 所证明的)。
多元正态分布完全由每个分量的均值、每个分量的方差以及任意两个分量之间的协方差(或相关系数)决定。另一种说法是,MVN 随机向量 \((X_1, \dots, X_k)\) 的参数如下:
- 均值向量 \((\mu_1, \dots, \mu_k)\),其中 \(E(X_j) = \mu_j\);
- 协方差矩阵,这是一个 \(k \times k\) 的矩阵,包含分量之间的协方差,其第 \(i\) 行第 \(j\) 列的元素为 \(\text{Cov}(X_i, X_j)\)。
例如,为了完全指定 \((X, Y)\) 的二元正态分布,我们需要知道五个参数:
- 均值 \(E(X), E(Y)\);
- 方差 \(\text{Var}(X), \text{Var}(Y)\);
- 相关系数 \(\text{Corr}(X, Y)\)。
我们将在例 8.1.10 中证明,边缘分布为 \(N(0,1)\) 且相关系数为 \(\rho \in (-1,1)\) 的二元正态分布 \((X, Y)\) 的联合 PDF 为: \[ f_{X,Y}(x,y) = \frac{1}{2\pi\tau} \exp\left( -\frac{1}{2\tau^2}(x^2 + y^2 - 2\rho xy) \right) \]
其中 \(\tau = \sqrt{1-\rho^2}\)。图 7.10 绘制了两种不同二元正态分布(边缘分布均为 \(N(0,1)\))的联合 PDF 及其对应的等高线图。左图中 \(X\) 和 \(Y\) 不相关,因此联合 PDF 的水平曲线(等高线)是圆形的。右图中 \(X\) 和 \(Y\) 的相关系数为 0.75,因此水平曲线呈椭圆形,反映了当 \(X\) 较大时 \(Y\) 也倾向于较大的事实。

正如随机变量的分布由其 CDF、PMF/PDF 或 MGF 决定一样,随机向量的联合分布由其联合 CDF、联合 PMF/PDF 或联合 MGF 决定,我们现在给出其定义。
定义 7.5.6(联合 MGF)。随机向量 \(X = (X_1, \dots, X_k)\) 的联合矩生成函数(联合 MGF)是由下式定义的函数 \(M\): \[ M(\mathbf{t}) = E(e^{\mathbf{t}'X}) = E(e^{t_1X_1 + \dots + t_kX_k}) \]
其中 \(\mathbf{t} = (t_1, \dots, t_k) \in \mathbb{R}^k\)。我们要求该期望在 \(\mathbb{R}^k\) 中包含原点的一个立方体内是有限的;否则我们称该联合 MGF 不存在。
对于多元正态随机向量,其联合 MGF 特别简洁,因为根据定义,指数项 \(t_1X_1 + \dots + t_kX_k\) 是一个正态随机变量。这意味着我们可以利用已知的一元正态 MGF 来求多元正态的联合 MGF!回想一下,对于任何正态随机变量 \(W\): \[ E(e^W) = e^{E(W) + \frac{1}{2}\text{Var}(W)} \]
因此,多元正态 \((X_1, \dots, X_k)\) 的联合 MGF 为: \[ E(e^{t_1X_1 + \dots + t_kX_k}) = \exp\left( \sum_{j=1}^k t_j E(X_j) + \frac{1}{2}\text{Var}\left( \sum_{j=1}^k t_j X_j \right) \right) \]
其中的方差项可以利用协方差的性质进行展开。
我们知道,通常情况下,独立比零相关是一个更强的条件;随机变量可以不相关但不独立。多元正态分布的一个特殊性质是:对于联合分布为 MVN 的随机变量,独立和零相关是等价条件。
定理 7.5.7。在多元正态(MVN)随机向量内部,不相关即意味着独立。也就是说,如果 \(X \sim \text{MVN}\) 可以写成 \(X = (X_1, X_2)\),其中 \(X_1\) 和 \(X_2\) 是子向量,且 \(X_1\) 的每个分量都与 \(X_2\) 的每个分量不相关,那么 \(X_1\) 与 \(X_2\) 独立。
特别地,如果 \((X, Y)\) 服从二元正态分布且 \(\text{Corr}(X, Y) = 0\),那么 \(X\) 与 \(Y\) 独立。
证明:
我们以二元正态分布为例进行证明;高维情况下的证明与之类似。设 \((X, Y)\) 为二元正态分布,参数为 \(E(X) = \mu_1\),\(E(Y) = \mu_2\),\(\text{Var}(X) = \sigma_1^2\),\(\text{Var}(Y) = \sigma_2^2\),以及相关系数为 \(\rho\)。其联合 MGF 为: \[ M_{X,Y}(s,t) = E(e^{sX+tY}) = \exp \left( s\mu_1 + t\mu_2 + \frac{1}{2}\text{Var}(sX+tY) \right) \]
\[ = \exp \left( s\mu_1 + t\mu_2 + \frac{1}{2}(s^2\sigma_1^2 + t^2\sigma_2^2 + 2st\sigma_1\sigma_2\rho) \right) \]
如果 \(\rho = 0\),联合 MGF 简化为: \[ M_{X,Y}(s,t) = \exp \left( s\mu_1 + t\mu_2 + \frac{1}{2}(s^2\sigma_1^2 + t^2\sigma_2^2) \right) \]
但这恰恰也是 \((Z, W)\) 的联合 MGF,其中 \(Z \sim N(\mu_1, \sigma_1^2)\),\(W \sim N(\mu_2, \sigma_2^2)\) 且 \(Z\) 与 \(W\) 独立。由于联合 MGF 决定了联合分布,因此 \((X, Y)\) 必须与 \((Z, W)\) 具有相同的联合分布。所以 \(X\) 与 \(Y\) 独立。
该定理不适用于例 7.5.2。在那个例子中,你可以验证 \(X\) 和 \(Y\) 是不相关但不独立的,但这并不违背本定理,因为那个例子中的 \((X, Y)\) 并不是二元正态分布。接下来的两个例子展示了该定理适用的情况。
例 7.5.8(和与差的独立性)。设 \(X, Y \overset{i.i.d.}{\sim} N(0,1)\)。求 \((X+Y, X-Y)\) 的联合分布。
解:
由于 \((X+Y, X-Y)\) 是二元正态分布,且其协方差为: \[ \text{Cov}(X+Y, X-Y) = \text{Var}(X) - \text{Cov}(X,Y) + \text{Cov}(Y,X) - \text{Var}(Y) = 1 - 0 + 0 - 1 = 0 \]
因此 \(X+Y\) 与 \(X-Y\) 独立。此外,它们均服从 \(N(0,2)\),且相互独立。通过相同的方法,我们可以得出:如果 \(X \sim N(\mu_1, \sigma^2)\) 和 \(Y \sim N(\mu_2, \sigma^2)\) 独立(即方差相同),那么 \(X+Y\) 与 \(X-Y\) 也是独立的。
值得一提的是,和与差的独立性是正态分布的一个特有性质!也就是说,如果 \(X\) 和 \(Y\) 独立同分布,且 \(X+Y\) 与 \(X-Y\) 独立,那么 \(X\) 和 \(Y\) 必须服从正态分布。
在练习 72 中,你将把这个例子推广到 \(X\) 和 \(Y\) 为具有一般相关系数 \(\rho\) 的二元正态分布的情况。
例 7.5.9(样本均值与样本方差的独立性)。设 \(X_1, \dots, X_n\) 为独立同分布的 \(N(\mu, \sigma^2)\),\(n \geq 2\)。定义: \[ \bar{X}_n = \frac{1}{n} \sum_{j=1}^n X_j \]
\[ S_n^2 = \frac{1}{n-1} \sum_{j=1}^n (X_j - \bar{X}_n)^2 \]
正如第 6 章所示,样本均值 \(\bar{X}_n\) 的期望为 \(\mu\)(真实均值),样本方差 \(S_n^2\) 的期望为 \(\sigma^2\)(真实方差)。通过将多元正态(MVN)的思想应用于 \((\bar{X}_n, X_1 - \bar{X}_n, \dots, X_n - \bar{X}_n)\),证明 \(\bar{X}_n\) 与 \(S_n^2\) 独立。
解:
向量 \((\bar{X}_n, X_1 - \bar{X}_n, \dots, X_n - \bar{X}_n)\) 是 MVN,因为其分量的任何线性组合都可以写成 \(X_1, \dots, X_n\) 的线性组合。此外,根据线性性质可知 \(E(X_j - \bar{X}_n) = 0\)。现在我们计算 \(\bar{X}_n\) 与 \(X_j - \bar{X}_n\) 的协方差: \[ \text{Cov}(\bar{X}_n, X_j - \bar{X}_n) = \text{Cov}(\bar{X}_n, X_j) - \text{Cov}(\bar{X}_n, \bar{X}_n) \]
对于 \(\text{Cov}(\bar{X}_n, X_j)\),我们可以展开 \(\bar{X}_n\),由于独立性,大部分项都会抵消: \[ \text{Cov}(\bar{X}_n, X_j) = \text{Cov}\left(\frac{1}{n}(X_1 + \dots + X_n), X_j\right) = \text{Cov}\left(\frac{1}{n}X_j, X_j\right) = \frac{1}{n}\text{Var}(X_j) = \frac{\sigma^2}{n} \]
对于 \(\text{Cov}(\bar{X}_n, \bar{X}_n)\),我们利用方差的性质: \[ \text{Cov}(\bar{X}_n, \bar{X}_n) = \text{Var}(\bar{X}_n) = \frac{1}{n^2}(\text{Var}(X_1) + \dots + \text{Var}(X_n)) = \frac{\sigma^2}{n} \]
因此 \(\text{Cov}(\bar{X}_n, X_j - \bar{X}_n) = 0\),这意味着 \(\bar{X}_n\) 与 \((X_1 - \bar{X}_n, \dots, X_n - \bar{X}_n)\) 的每一个分量都不相关。由于在 MVN 向量内部不相关意味着独立,所以 \(\bar{X}_n\) 独立于向量 \((X_1 - \bar{X}_n, \dots, X_n - \bar{X}_n)\)。
因为 \(S_n^2\) 是 \((X_1 - \bar{X}_n, \dots, X_n - \bar{X}_n)\) 的函数,所以 \(\bar{X}_n\) 也独立于 \(S_n^2\)。
值得注意的是,样本均值与样本方差的独立性也是正态分布的另一个特有性质!如果 \(X_j\) 服从任何其他分布,那么 \(\bar{X}_n\) 与 \(S_n^2\) 将是相关的。
例 7.5.10(二元正态分布的生成)。假设我们可以获取独立同分布的随机变量 \(X, Y \sim N(0,1)\),但为了进行模拟,我们想要生成一个相关系数为 \(\rho\) 且边缘分布均为 \(N(0,1)\) 的二元正态随机向量 \((Z, W)\)。我们该如何通过 \(X\) 和 \(Y\) 的线性组合构造出 \(Z\) 和 \(W\) 呢?
解:
根据多元正态分布的定义,任何形式如下的 \((Z, W)\): \[ Z = aX + bY \]
\[ W = cX + dY \]
都将是二元正态的。那么让我们尝试找到合适的 \(a, b, c, d\)。均值已经是 0 了。令方差等于 1 得到: \[ a^2 + b^2 = 1, \quad c^2 + d^2 = 1 \]
令 \(Z\) 和 \(W\) 的协方差等于 \(\rho\) 得到: \[ ac + bd = \rho \]
这里的未知数比方程多,我们只需要一个解。为了简化,我们寻找 \(b=0\) 的解。此时 \(a^2=1\),取 \(a=1\)。于是 \(ac + bd = \rho\) 简化为 \(c = \rho\),接着利用 \(c^2 + d^2 = 1\) 可以找到合适的 \(d\)。综上所述,我们可以这样生成 \((Z, W)\): \[ Z = X \]
\[ W = \rho X + \sqrt{1-\rho^2} Y \]
注意,在极端情况 \(\rho=1\)(完全正相关)下,这意味着 \(W = Z \sim N(0,1)\);在极端情况 \(\rho=-1\)(完全负相关)下,这意味着 \(W = -Z\) 且 \(Z \sim N(0,1)\);而在简单情况 \(\rho=0\) 下,只需令 \((Z, W) = (X, Y)\) 即可。
7.6 本章小结
联合分布允许我们描述源自同一个实验的多个随机变量的行为。与联合分布相关的重要函数包括:联合 CDF、联合 PMF/PDF、边缘 PMF/PDF 以及 条件 PMF/PDF。下页的表格总结了两个离散随机变量和两个连续随机变量的这些定义。联合分布也可以是离散和连续的混合型,在这种情况下,我们需要交叉使用 PMF 和 PDF。

协方差是衡量两个随机变量向相同方向移动趋势的单数值概括。如果两个随机变量相互独立,则它们是不相关的,但反之并不成立。相关系数是协方差的无单位、标准化版本,其取值始终在 \(-1\) 到 \(1\) 之间。
两个重要的命名多元分布是多项分布和多元正态分布:
- 多项分布是二项分布的推广;\(\text{Mult}_k(n, \mathbf{p})\) 随机向量统计了 \(n\) 个对象中落入 \(k\) 个类别中的每一个的数量,其中 \(\mathbf{p}\) 是这 \(k\) 个类位的概率向量。
- 多元正态分布是正态分布的推广;如果一个随机向量的任何线性组合都服从正态分布,则该向量被定义为 MVN。MVN 分布的一个关键性质是:在 MVN 随机向量内部,不相关即意味着独立。
图 7.11 将我们的概率基础对象图扩展到了多元设置(为简化符号,以二元为例)。联合分布可用于生成随机向量 \((X, Y)\)。随后可以研究各种联合、边缘和条件量。对所有 \(y\) 进行联合 PMF 求和或对联合 PDF 进行积分,即可得到 \(X\) 的边缘分布,从而将我们带回一维领域。

7.7 R 语言操作
多项分布
多项分布的相关函数包括 dmultinom(多项分布的联合 PMF)和 rmultinom(生成多项随机向量的样本)。由于多项分布的联合 CDF 处理起来非常麻烦,因此 R 并没有内置该函数。
要使用 dmultinom,我们需要输入用于评估联合 PMF 的观测值,以及分布的参数。例如:
R
1 | x <- c(2,0,3) |
这段代码返回概率 \(P(X_1 = 2, X_2 = 0, X_3 = 3)\),其中 \(X = (X_1, X_2, X_3) \sim \text{Mult}_3(5, (1/3, 1/3, 1/3))\)。当然,\(n\) 必须等于 sum(x);如果我们尝试执行 dmultinom(x, 7, p),R 会报错。
对于 rmultinom,第一个输入是要生成的随机向量的个数,其他输入参数相同。当我们输入 rmultinom(10, n, p)(参数如上)时,R 输出了如下矩阵:
Plaintext
1 | [,1] [,2] [,3] [,4] [,5] [,6] [,7] [,8] [,9] [,10] |
矩阵的每一列对应于从 \(\text{Mult}_3(5, (1/3, 1/3, 1/3))\) 分布中抽取的一个样本。特别地,每一列的总和均为 5。
多元正态分布
多元正态分布的函数位于 mvtnorm 包中。你可以通过 install.packages("mvtnorm") 安装该包,并使用 library(mvtnorm) 加载。加载后,dmvnorm 可用于计算联合 PDF,而 rmvnorm 可用于生成随机向量。
例如,假设我们要生成 1000 个独立的二元正态(BVN)样本对 \((Z, W)\),要求相关系数 \(\rho = 0.7\),且边缘分布为 \(N(0,1)\)。我们可以输入以下代码:
R
1 | meanvector <- c(0,0) |
这里的协方差矩阵是: \[ \begin{pmatrix} 1 & \rho \\ \rho & 1 \end{pmatrix} \]
原因如下:
\(\text{Cov}(Z, Z) = \text{Var}(Z) = 1\)(左上角条目);
\(\text{Cov}(W, W) = \text{Var}(W) = 1\)(右下角条目);
如下
\[ \text{Cov}(Z, W) = \text{Corr}(Z, W) \cdot \text{SD}(Z) \cdot \text{SD}(W) = \rho \]
(另外两个条目)。
现在 r 是一个 \(1000 \times 2\) 的矩阵,每一行是一个 BVN 随机向量。为了观察这些点在平面上的分布,我们可以使用 plot(r) 绘制散点图,图中会清晰地显示出强正相关性。要估计 \(Z\) 和 \(W\) 的协方差,可以使用 cov(r)。
例 7.5.10 提供了另一种生成 BVN 的方法:
R
1 | rho <- 0.7 |
这将 \(Z\) 坐标存储在向量 z 中,将 \(W\) 坐标存储在向量 w 中。如果我们想将它们像上面那样合并成一个 \(1000 \times 2\) 的矩阵,可以输入 cbind(z, w) 将向量作为列进行绑定。
柯西分布 (Cauchy)****
我们可以使用 dcauchy、pcauchy 和 rcauchy 这三个函数来处理例 7.1.25 中介绍的柯西分布。使用时只需要一个输入值;例如,dcauchy(0) 返回在 0 处评估的柯西 PDF 值。
为了有趣地展示柯西分布那极重的尾部(very heavy tails),你可以尝试为 1000 个柯西分布的模拟值绘制直方图:
R
1 | hist(rcauchy(1000)) |
由于分布尾部存在极端值,这个直方图看起来与生成它的分布 PDF 完全不像。这是因为柯西分布偶尔会产生极大的观测值,以至于这些离群值会极大地压缩直方图的主体部分,使其在视觉上变得难以辨认。
书籍各章的机翻md文件:
《Introduction to Probability》前言
《Introduction to Probability》第1章 概率与计数
《Introduction to Probability》第 2 章 条件概率
《Introduction to Probability》第3章 随机变量及其分布
《Introduction to Probability》第4章 期望
《Introduction to Probability》第5章 连续随机变量
《Introduction to Probability》第 6 章 矩
《Introduction to Probability》第7 章 联合分布
《Introduction to Probability》第8章 变换
《Introduction to Probability》第9章 条件期望
《Introduction to Probability》第10章 不等式与极限理论
《Introduction to Probability》第11章 马尔可夫链
《Introduction to Probability》第12章 马尔可夫链蒙特卡罗
《Introduction to Probability》第13章 泊松过程