第 11 章 马尔可夫链

Markov chains

马尔可夫链由安德烈·马尔可夫(Andrey Markov,马尔可夫不等式的提出者)于 1906 年首次引入,其目标是证明大数定律同样适用于非独立的随机变量。

为了理解马尔可夫模型的由来,首先考虑独立同分布(i.i.d.)的随机变量序列 \(X_0, X_1, \dots, X_n, \dots\),其中 \(n\) 代表时间。这是我们在第 10 章中一直采用的设定,但对于模拟现实世界的现象,独立性假设可能过于苛刻;它意味着 \(X_n\) 彼此之间完全不提供任何信息。在另一个极端,允许 \(X_n\) 之间存在任意的相互作用会使计算变得异常困难。马尔可夫链是一种表现出“一步相关性”的随机变量序列。因此,马尔可夫链是完全独立与完全相关之间的一个理想折中点。

自发明以来,马尔可夫链已在生物学、博弈论、金融、机器学习和统计物理等众多领域变得极其重要。它们还广泛用于通过被称为马尔可夫链蒙特卡罗(MCMC)的算法来模拟复杂分布。在本章中,我们将介绍马尔可夫链及其性质,并在下一章探讨一些 MCMC 技术的示例。

阅读全文 »

第10章 不等式与极限理论

Inequalities and limit theorems

“如果我无法精确计算概率或期望,我该怎么办?”几乎每个使用概率论的人有时都必须处理这种情况。不要惊慌。有一些强大的策略可用:模拟它、界定它或近似它。

使用蒙特卡罗(Monte Carlo)进行模拟:我们已经在本书中看到了许多模拟的例子;R 语言部分提供了大量示例,其中几行代码和计算机上的几秒钟就足以获得良好的近似答案。“蒙特卡罗”仅仅意味着模拟使用了随机数(该术语起源于摩纳哥的蒙特卡罗赌场)。

蒙特卡罗模拟是一种极其强大的技术,在许多问题中,它是目前唯一可行的合理方法。那么,为什么不总是直接进行模拟呢?以下是几个原因:

阅读全文 »

第9章 条件期望

Conditional expectation

既然你已经阅读了前面的章节,你已经知道什么是条件期望了:它就是期望,只不过使用了条件概率。这是一个至关重要的概念,其原因与我们需要条件概率的原因类似:

  • 条件期望是计算期望的强大工具。 通过使用诸如“对我们希望知道的信息进行条件化”以及“第一步分析”等策略,我们通常可以将复杂的期望问题分解为更简单的部分。
  • 条件期望本身就是一个相关的量,它允许我们基于当前可用的任何证据来预测或估计未知量。例如,在统计学中,我们经常希望基于解释变量(如解决的练习题数量或参加职业培训计划的情况)来预测响应变量(如考试成绩或收入)。

关于条件期望,有两个不同但又紧密联系的概念:

  • 给定事件下的条件期望 \(E(Y|A)\):设 \(Y\) 是一个随机变量,\(A\) 是一个事件。如果我们获知 \(A\) 发生了,我们对 \(Y\) 更新后的期望记作 \(E(Y|A)\),其计算方法与 \(E(Y)\) 类似,只是使用给定 \(A\) 下的条件概率。
  • 给定随机变量下的条件期望 \(E(Y|X)\):一个更微妙的问题是如何定义 \(E(Y|X)\),其中 \(X\)\(Y\) 都是随机变量。直观地说,\(E(Y|X)\) 是一个仅使用从 \(X\) 中获得的信息来最好地预测 \(Y\) 的随机变量。

在本章中,我们将探索这两种形式的条件期望的定义、性质、直觉和应用。

阅读全文 »

第8章 变换

transformations

本章的主题是随机变量和随机向量的变换。在对随机变量 \(X\) 或随机向量 \(\mathbf{X}\) 应用一个函数后,目标是找到变换后的随机变量的分布或变换后的随机向量的联合分布。

随机变量的变换在统计学中无处不在。以下是一些例子,用以预演本章将要探讨的各种变换。

阅读全文 »

第7 章 联合分布

Joint distributions

当我们最初在第3章介绍随机变量及其分布时,我们注意到两个随机变量各自的分布并不能告诉我们这两个随机变量是相互独立还是相关的。例如,如果两个 \(Bern(1/2)\) 随机变量 \(X\)\(Y\) 分别表示两次不同硬币投掷的正面向上的情况,则它们可能是独立的;如果它们分别表示同一次硬币投掷的正面向上的情况和背面向上的情况,则它们是相关的。因此,尽管 \(X\) 的 PMF 是 \(X\) 的完整蓝图,\(Y\) 的 PMF 是 \(Y\) 的完整蓝图,但这些单独的 PMF 缺失了关于这两个随机变量如何关联的重要信息。

阅读全文 »

第 6 章 矩

Moments

随机变量 \(X\) 的第 \(n\) 阶矩是 \(E(X^n)\)。在本章中,我们将探讨随机变量的矩如何揭示其分布的特征。我们已经看到前两阶矩非常有用,因为它们提供了均值 \(E(X)\) 和方差 \(E(X^2) - (EX)^2\),这些是关于 \(X\) 的平均值及其分布离散程度的重要汇总信息。但分布的含义远不止于其均值和方差。

我们将看到,第三阶和第四阶矩告诉我们分布的非对称性以及尾部或极端值的行为,这两个性质是均值和方差无法捕捉到的。在介绍矩之后,我们将讨论矩生成函数 (MGF),它不仅能帮助我们计算矩,还提供了一种有用的替代方法来指定一个分布。

阅读全文 »

第5章 连续随机变量

Continuous random variables

到目前为止,我们一直在研究离散随机变量,其可能的值可以列成一张清单。在本章中,我们将讨论连续随机变量,它们可以取区间内的任何实数值(区间长度可能是无限的,例如 \((0, \infty)\) 或整个实数轴)。首先,我们将考察连续随机变量的普遍性质。然后,我们将介绍三种著名的连续分布——均匀分布(Uniform)、正态分布(Normal)和指数分布(Exponential)——它们除了拥有各自重要的背景故事外,还作为许多其他有用的连续分布的构建基石。

阅读全文 »

第4章 期望

Expectation

4.1 期望的定义

Definition of expectation

在上一章中,我们引入了随机变量的分布,它为我们提供了随机变量落入任何特定集合概率的完整信息。例如,我们可以计算随机变量超过 1000、等于 5 或落在区间 \([0, 7]\) 内的可能性有多大。然而,管理这么多概率可能会非常笨拙,因此我们通常只需要一个数字来总结随机变量的“平均”值。

“平均”这个词有多种含义,但到目前为止最常用的是随机变量的均值(mean),也称为其期望值(expected value)。此外,统计学很大程度上是关于理解世界中的变异性,因此了解分布的“离散程度”通常也很重要;我们将通过方差(variance)和标准差(standard deviation)的概念将其正式化。正如我们将看到的,方差和标准差是根据期望值定义的,因此期望值的用途远不止计算平均数。

阅读全文 »

第3章 随机变量及其分布

Random variables and their distributions

在本章中,我们将引入随机变量。这是一个极其有用的概念,它既能简化记号,又能增强我们量化不确定性以及总结实验结果的能力。随机变量在本书后续内容以及整个统计学中都至关重要,因此,从直觉和数学两个层面深入思考其含义是至关重要的。

阅读全文 »

第 2 章 条件概率

Conditional probability

我们已经将概率引入为一种表达我们对事件的置信程度或不确定性的语言。每当我们观察到新的证据(即获得数据)时,我们就获取了可能影响我们不确定性的信息。一个与现有信念一致的新观察结果可能会让我们对该信念更加确定,而一个令人惊讶的观察结果可能会使该信念受到质疑。条件概率正是解决这一根本问题的概念:我们应当如何根据观察到的证据来更新我们的信念?

阅读全文 »
0%