二项分布、泊松分布、正态分布的关系

一、二项分布、泊松分布、正态分布关系

1)泊松分布,二项分布都是离散分布;正态分布是连续分布 2)二项分布什么时候趋近于泊松分布,什么时候趋近于正态分布? 这么说吧:二项分布有两个参数,一个 n 表示试验次数,一个 p 表示一次试验成功概率。 现在考虑一列二项分布,其中试验次数 n 无限增加,而 p 是 n 的函数。 如果 np 存在有限极限 λ,则这列二项分布就趋于参数为 λ 的 泊松分布。反之,如果 np 趋于无限大(如 p 是一个定值),则根据德莫佛-拉普拉斯(De'Moivre-Laplace)中心极限定理,这列二项分布将趋近于正态分布。 3)实际运用中当 n 很大时一般都用正态分布来近似计算二项分布,但是如果同时 np 又比较小(比起n来说很小),那么用泊松分布近似计算更简单些,毕竟泊松分布跟二项分布一样都是离散型分布。

二、二项分布

二项分布可基于对一系列潜在事件实际发生情况的观测对事件的发生次数建模。例如,二项分布可用于采集在临床研究中死于心脏病的人数、拥挤电梯中在第二层走出电梯的人数,或是某动物种群中携带特定遗传性状的动物数量。 二项分布描述的是发生次数,而不是量值。它可以对完成比赛的参赛者数量建模,但不能对参赛者的速度建模。 二项分布的公式如下: \[f\left( x\right) =\dfrac {n!} {x!\left( n-x\right) !}p^{x}\left( 1-p\right) ^{n-x}\]

其中 n 是观测值数量。 p 是发生概率。 x 是成功次数(从 0 到 n)。

使用二项分布的一个常见例子是,在抛掷硬币 10 次 (n = 10) 的情况下判断硬币正面朝上的次数概率。可能出现的情况是,10 次中有 0 次正面朝上、10 次中有 1 次正面朝上,以此类推;因此,x = 0、1、2、3、4、5、6、7、8、9、10。p 是每个 x 的概率。 所有试验都是相互独立的,并且每个试验只有成功和失败这两种结果。 如果 n 值较大且 p 值较小,则二项分布接近泊松分布。这种情况下使用泊松分布会更加简便。 二项分布将返回代表 n 次试验中成功次数的随机变量,其中每次试验的成功概率为 p(例如,硬币正面朝上的概率为 p)。

在离散分布中如果试验次数n值非常大,而且单次试验的概率p值又不是很小的情况下,正态分布可以用来近似的代替二项分布。一个粗略的使用正态分布的近似规则是: \[n\cdot p\cdot\left( 1-p\right) \geq 9\] 从二项分布中获得 :  期望值: μ=np  方差: σ²=np(1-p) 如果σ>3,则必须采用下面的近似修正方法: \[ P(x_{1}\leq X\leq x_{2})=\underbrace{\sum _{x_{1}=k}^{x_{2}}\left( \begin{matrix} n\\ k\end{matrix} \right) \cdot p^{k}\cdot q^{n-k}}_{EF}\approx\underbrace {\Phi \left({\frac {x_{2}+0.5-\mu }{\sigma }}\right)-\Phi \left({\frac {x_{1}-0.5-\mu }{\sigma }}\right)} _{\mathrm {ZF} }\] 注:q=1-p,EF:二项分布; ZF:正态分布

上(下)临界值分别增加(减少)修正值0.5的目的是在σ值很大时获得更精确的近似值,只有 σ很小时,修正值0.5可以不被考虑。 例如,随机试验为连续64次掷硬币,获得的国徽数位于32和42之间的概率是多少?用正态分布计算如下, \[ \begin{align*} &\mu =n\cdot p=64\cdot 0.5=32\\ &{\displaystyle \sigma ={\sqrt {n\cdot p\cdot (1-p)}}={\sqrt {64\cdot 0.5\cdot 0.5}}=4} \\ &{\displaystyle n\cdot p\cdot q=16\geq 9} ,符合近似规则,应用 {\displaystyle z} -变换:\\ \end{align*} \] \[ \begin{align*} P(32\leq X\leq 42)&\approx \Phi \left({\frac {42+0.5-32}{4}}\right)-\Phi \left({\frac {32-0.5-32}{4}}\right) \\ &=\Phi \left(2.63\right)-\Phi \left(-0.13\right)=0.0517+0.4957=0.5474 \end{align*} \] 在运用z- 表格时注意到利用密度函数的对称性来求出 z为负值时的区域面积。

三、泊松分布

泊松分布是一种离散型概率分布。泊松分布适合在给定一个已知平均值的情况下对固定时间步长内事件的发生次数概率进行建模。这些事件与它们最后一次发生的状态无关。X 轴上是 0、1、2、3、4(以此类推)等事件的离散值(通常表示事件的发生次数),Y 轴上是现象的发生概率(通常是给定一个已知平均值)。这些事件可以是十字路口的事故发生次数、出生缺陷数量或一平方公里内驼鹿的数量。泊松分布可以对小概率事件进行建模。这种分布有时也被称为小数定律 (Law of small numbers),因为事件不经常发生,但仍有很多机会让它发生。 泊松分布的公式如下: \[ f\left( x;\lambda \right) =\begin{cases} \lambda e^{-\lambda x},x\geq 0\\ 0,x < 0\end{cases} \] 其中: e 是自然对数的底。 x 是事件的可能发生次数(正整数)。 λ(即,平均值)是一个正数,代表指定区间内事件的预期发生次数。如果事件在 1 小时内(60 分钟)每 10 分钟发生一次,则 λ 为 6。

泊松分布与二项分布类似,但泊松分布是在不知道事件的可能发生总次数的情况下对小概率事件建模。泊松分布的建模对象是十字路口的事故发生次数,而二项分布的建模对象是事故发生次数与经由十字路口的汽车数量之间的相对关系。  期望值:λ(即,平均值)  方差:方差σ²与均数λ相等,即σ²=λ 

1、Poisson分布的性质 

1)Poisson分布是一种单参数的离散型分布,其参数为λ,它表示单位时间或空间内某事件平均发生的次数,又称强度参数。  2)Poisson分布的方差σ²与均数λ相等,即σ²=λ  3)Poisson分布是非对称性的,在λ不大时呈偏态分布,随着λ的增大,迅速接近正态分布。一般来说,当λ=20时,可以认为近似正态分布,Poisson分布资料可按正态分布处理。  4)Poisson分布的累计概率常用的有左侧累计和右侧累计两种。单位时间或空间内事件发生的次数。

2、Poisson对应不同λ的分布图

分布当总体均数值小于5时为偏峰,愈小分布愈偏,随着增大,分布趋向对称。  

四、正态分布

正态分布用于对常见的连续随机变量建模。正态分布被广泛采用,适用于许多应用领域。它的理论基础是中心极限定理,该定理所基于的原理是:如果存在大量观测值,则随机变量的总和将呈正态分布。例如,如果多次抛掷硬币,则在一连串抛币动作中硬币正面朝上的次数将接近正态分布。正态分布的例子包括:某国家的人的身高、某个省的各个高程值以及 12 岁学生的数学考试分数。 正态分布的公式如下: \[ f\left( x\right) =\dfrac {1} {\sigma \sqrt {2\pi }}e^{-\dfrac {\left( x-\mu\right) ^{2}} {2\sigma ^{2}}} \]

其中 μ 是平均值。 σ 是标准差(正数)。 正态分布关于平均值、众数和中值对称(都在 μ 处相等)。

通常二项分布和泊松分布使用数量较少的观测值对未来的离散型独立随机事件(可能发生,也可能不发生。例如,抛硬币时硬币正面朝上的次数)建模,而正态分布则使用大量的观测值对连续型变量(例如高度、重量和金额)建模。二项分布和泊松分布以概率为基础,而正态分布涉及的是达到某个量或量值的观测值数量。