目录
1.切比雪夫不等式 ▹
1.1示性函数 ▹
1.2 马尔可夫不等式 ▹
1.3 切比雪夫不等式 ▹
2.大数定律 ▹
2.1 马尔可夫大数定律 ▹
2.2 切比雪夫大数定律 ▹
2.3独立同分布大数定律 ▹
2.4伯努利大数定律 ▹
2.5辛钦大数定律 ▹
3.中心极限定理 ▹
3.1林德贝格-勒维/独立同分布中心极限定理 ▹
3.2 棣莫弗-拉普拉斯/二项分布中心极限定理 ▹
*3.3独立不同分布下的中心极限定理 ▹
林德伯格中心极限定理 ▹
李雅普诺夫Lyapunov中心极限定理 ▹
学习阶段:大学数学。
前置知识:微积分、随机变量、数学期望、方差。
1. 切比雪夫不等式
切比雪夫不等式可以对随机变量偏离期望值的概率做出估计,这是大数定律的推理基础。
以下介绍一个对切比雪夫不等式的直观证明。
1.1 示性函数
对于随机事件A,我们引入一个示性函数
1, A
lᴀ={
0, A
,即一次试验中,若A发生了,则 l 的值为1,否则为0.
现在思考一个问题:这个函数的自变量是什么?
我们知道,随机事件在做一次试验后有一个确定的观察结果,称这个观察结果为样本点 ω ,所有可能的样本点的集合称为样本空间 Ω={ω} . 称 Ω 的一个子集 A 为随机事件。
例如,掷一个六面骰子,记得到数字k的样本点为ωₖ ,则 Ω={ω₁,ω₂,ω₃,ω₄,ω₅,ω₆} ,随机事件“得到的数字为偶数”为 A={ω₂,ω₄,ω₆} .
由此可知,示性函数是关于样本点的函数,即
1, ω∈A
lᴀ(ω)={ (试验后)
0, ω∉A
在试验之前,我们能获得哪个样本点也未知的,因此样本点也是个随机事件,记为ξ ,相应地示性函数可以记为
1, ξ∈A
lᴀ={ (试验前)
0, ξ∉A
在试验之前,l 值也是未知的,因此 l 是个二值随机变量。这样,我们就建立了随机事件A和随机变量 l 之间的一一对应关系。
对l 求数学期望可得
𝔼lᴀ=1 × P(ξ∈A)+0 × P(ξ∉A)=P(ξ∈A)
P(ξ∈A) 是什么?是样本点落在A里面的概率,也就是A事件发生的概率 P(A) ,由此我们就得到了示性函数很重要的性质:其期望值正是对应的随机事件的概率,即
𝔼lᴀ=P(A)
1.2 马尔可夫不等式
对于非负的随机变量X 和定值 α ,考虑随机事件 A={X≥α} ,我们可以画出示性函数 lᴀ 关于观察值x的图像,如图1所示:
x
─
α
lx≥α
容易发现
x
lx≥α(x) ≤ ─
α
恒成立。把x换为随机变量X,再对该式取数学期望得
𝔼X
𝔼lx≥α=P(X≥α) ≤ ──
α
称该不等式为马尔可夫Markov不等式。
从理解上来说,如果非负随机变量X的期望存在,则X超过某个定值a的概率不超过
𝔼X
── .
α
举个简单的例子:如果我们知道所有人收入的平均数a,那么随机抽一个人收入超过10a的概率不超过10%.
根据图1中两个函数的差距,我们大致能理解这个不等式对概率的估计是比较粗糙的。
1.3 切比雪夫不等式
对于随机变量X ,记 μ=𝔼X,考虑随机事件 A={|X – μ| ≥ α} ,其示性函数的图像如图2所示:
(x – μ)²
────
α²
l|x–μ|≥α
易知
(x – μ)²
l|x–μ|≥α ≤ ───
α²
恒成立。将该式的x换成X并取数学期望得
𝔻X
𝔼l|x–μ|≥α=P(|X – μ| ≥ α) ≤ ──
α²
称上面这个不等式为切比雪夫Chebyshev不等式。
从理解上来说,如果随机变量X的期望和方差存在,则X和期望值的距离大于a的概率不超过
𝔻X
── .
α²
给定的范围越大(a越大),或X的方差越小,则偏离的概率越小,这和直觉是相符的。
同样地,切比雪夫不等式对概率的估计也比较粗糙。
以下再给出一个书本上常见的切比雪夫不等式的证明:
记p(x) 为随机变量 X 的概率密度函数,则
P(|X – μ| ≥ α)=(∫μ⁻α₋∞+∫⁺∞μ₊α) p(x)dx
上式求的是图3中阴影部分的面积。
p(x)
显然,在积分范围内恒有
(x – μ)²
──── ≥ 1,故
α²
P(|X – μ| ≥ α) ≤ (∫μ⁻α₋∞+∫⁺∞μ₊α)
(x – μ)²
──── p(x)dx
α²
被积函数是非负的,x轴上一部分的积分必然不大于整个x轴上的积分,故
(x – μ)²
P(|X – μ| ≥ α) ≤ ∫⁺∞₋∞ ── p(x)dx
α²
1 𝔻X
=── 𝔼(X – μ)²=──
α² α²
证毕。
2. 大数定律
对于一系列随机变量{Ⅹₙ} ,设每个随机变量都有期望。由于随机变量之和
ₙ
∑ Xᵢ
ᵢ₌₁
很有可能发散到无穷大,我们转而考虑随机变量的均值
─ 1 ₙ
Xₙ=─ ∑ Xᵢ
n ᵢ₌₁
─
和其期望 𝔼(Xₙ) 之间的距离。若 {Xₙ} 满足一定条件,当n足够大时,这个距离会以非常大的概率接近0,这就是大数定律的主要思想。
定义:
任取ε>0 ,若恒有
─ ─
lim P(|Xₙ – 𝔼Xₙ|<ε)=1 ,称 {Xₙ} 服从(弱)大数定律,称
─ ─
Xₙ 依概率收敛于 𝔼Xₙ ,记作
─ ᴘ ─
Xₙ → 𝔼Xₙ
每个“大数定律”其实都是定理,需要证明,只是大家习惯叫他定律罢了。
这里只讨论弱大数定律,并且把弱大数定律简称为大数定律。
2.1 马尔可夫大数定律
任取ε>0 ,由切比雪夫不等式知
─
─ ─ 𝔻(Xₙ)
P(|Ⅹₙ – 𝔼Xₙ|<ε) ≥ 1 – ───
ε²
1 ₙ
=1 – ── 𝔻 (∑Xᵢ)
ε²n² ᵢ₌₁
由此得到马尔可夫大数定律:
1 ₙ
如果lim ── 𝔻(∑Xᵢ)=0,
n→∞ n² ᵢ₌₁
则 {Xₙ} 服从大数定律。
2.2 切比雪夫大数定律
在马尔可夫大数定律的基础上,如果{Xₙ} 两两不相关,则方差可以拆开:
1 ₙ 1 ₙ
─ 𝔻(∑Xᵢ)=─ ∑ 𝔻Xᵢ
n² ᵢ₌₁ n² ᵢ₌₁
如果𝔻Xᵢ 有共同的上界c,则
1 ₙ nc c
─ ∑𝔻Xᵢ ≤ ─=─
n² ᵢ₌₁ n² n
─ ─ c
P(|Xₙ – 𝔼Xₙ|<ε) ≥ 1 – ──
ε²n
由此得到切比雪夫大数定律:
如果{Xₙ} 两两不相关,且方差有共同的上界,则 {Xₙ} 服从大数定律。
2.3 独立同分布大数定律
在切比雪夫大数定律的基础上,进一步限制{Ⅹₙ} 独立同分布,立刻得到独立同分布大数定律:
如果{Xₙ} 独立同分布且方差有界,则 {Xₙ} 服从大数定律,即
─ ᴘ ─
Xₙ → 𝔼Xₙ=𝔼X
2.4 伯努利大数定律
根据经验,在做了大量独立重复实验后,某随机事件A发生的频率与概率往往会十分接近,这正是大数定律在发挥作用。
记第k次试验中A的示性函数为lᴀ,ₖ ,则所有n次试验中A发生的频数是
ₙ
∑ lᴀ,ₖ,频率是
ᵢ₌₁
1 ₙ
─ ∑ lᴀ,ₖ,易知
n ᵢ₌₁
1 ₙ 1 ₙ nP(A)
𝔼(─ ∑ lᴀ,ₖ)=─ ∑ 𝔼lᴀ,ₖ=──
n ᵢ₌₁ n ᵢ₌₁ n
=P(A)
又知这n个lᴀ,ₖ 独立同分布且方差有界,由独立同分布大数定律知 {lᴀ,ₖ} 服从大数定律,这就是伯努利Bernoulli大数定律:
记nᴀ 为n次伯努利实验中事件A发生的次数,记p为事件A发生的概率,则
nᴀ ᴘ
── → p
n
伯努利大数定律是最早被发现的大数定律,因为这是生活中最容易发现的规律。
2.5 辛钦大数定律
以上2.1至2.4的大数定律都对{Xₙ} 的方差有所约束,而接下来的辛钦Khinchin大数定律可以完全不考虑方差:
如果{Xₙ} 独立同分布且具有有限的数学期望 𝔼X ,则 {Xₙ} 服从大数定律。
这个定理的证明较复杂,此处不予证明。
3. 中心极限定理
大数定律研究的是一系列随机变量{Xₙ}的均值
─ 1 ₙ
Xₙ=─ ∑Xᵢ
n ᵢ₌₁
─
是否会依概率收敛于其期望 𝔼Xₙ 这个数值,而中心极限定理进一步研究
─
Xₙ
服从什么分布。若 {Xₙ} 满足一定的条件,当n足够大时,
─
Xₙ
近似服从正态分布,这就是中心极限定理的主要思想,这也体现了正态分布的重要性与普遍性。
3.1 林德贝格-勒维/独立同分布中心极限定理
如果{Xₙ} 独立同分布,且 𝔼X=μ,𝔻X=σ²>0,则n足够大时
─
Xₙ 近似服从正态分布
σ²
N(μ,─) ,即
n
─
Xₙ – μ
lim P(───<α)=Φ(α)=∫α₋∞ ↓
n→∞ σ/√n
1
─── e⁻ᵗ²/²dt
√2π
上述定理就是林德贝格-勒维Lindeberg-Levy中心极限定理,又称独立同分布中心极限定理。
这个定理的证明也比较复杂,此处不予证明。
这个定理是容易理解、记忆的。首先记住{Xₙ} 的均值
─
Xₙ
近似服从正态分布,接下来只需要解出这个正态分布的期望和方差。期望有
─ 1 ₙ nμ
𝔼Xₙ=─ ∑𝔼Xᵢ=─=μ
n ᵢ₌₁ n
方差有
─ 1 ₙ nσ² σ²
𝔻Xₙ=── ∑𝔻Xᵢ=──=──
n² ᵢ₌₁ n² n
─
那么Xₙ 近似服从的正态分布就是
σ²
N(μ,─)
n
,归一化后的随机变量
─
Xₙ – μ
───
σ/√n
近似服从标准正态分布 N(0,1) .
3.2 棣莫弗-拉普拉斯/二项分布中心极限定理
棣莫弗-拉普拉斯De Moivre-Laplace中心极限定理是独立同分布中心极限定理的特殊情况,它是最先被发现的中心极限定理。
设随机变量ξₙ 服从二项分布 B(n,p) ,其中n指n重伯努利试验,p指概率。 ξₙ 可视为n个独立同分布的01分布随机变量的和,满足独立同分布中心极限定理的条件。因为 𝔼ξₙ=np 𝔻ξₙ=np(1 – p) ,当n足够大时 ξₙ 近似服从正态分布 N(np,np(1 – p)) ,即
ξₙ – np
lim P(──────<α)=Φ(α)
n→∞ √np(1 – p)
该定理表明:当试验次数n足够大时,二项分布近似于正态分布。
*3.3 独立不同分布下的中心极限定理
长度、重量、时间等等实际测量量一般符合正态分布,因为它们受各种微小的随机因素的扰动。这些随机因素的独立性是很普遍的,但很难说它们一定同分布。
实际上,一系列独立不同分布的随机变量也可能满足中心极限定理,只是这些不同分布的随机变量要有所限制。以下给出两个独立不同分布下的中心极限定理,不予证明,仅供欣赏:
林德伯格中心极限定理
设{Xₙ} 是一系列相互独立的连续随机变量,它们具有有限的期望 𝔼Xᵢ=μᵢ 和方差 𝔻Xᵢ=σ²ᵢ ,记
ₙ ₙ
Yₙ= ∑Xᵢ,𝔻Yₙ=∑σ²ᵢ=B²ₙ,
ᵢ₌₁ ᵢ₌₁
记 Xᵢ 的密度函数是 pᵢ(x) ,若
1 ₙ
∀τ>0:lim ─── ∑
n→∞ τ²B²ₙ ᵢ₌₁
∫|x–μᵢ|>τBₙ(x – μᵢ)²pᵢ(x)dx=0
则
1 ₙ
lim P(── ∑(Xᵢ – μᵢ)<α)=Φ(α)
n→∞ Bₙ ᵢ₌₁
林德伯格中心极限定理对{Xₙ} 的约束基本上是最弱的,也就是最强的中心极限定理。然而该定理的条件较难运用与验证,以下的定理是它的特例:
李雅普诺夫Lyapunov中心极限定理
设{Xₙ} 是一系列相互独立的随机变量,若
1 ₙ
∃δ>0:lim ── ∑𝔼(|Xᵢ – μᵢ|²⁺δ)
n→∞ Bₙ²⁺δ ᵢ₌₁
=0
则
1 ₙ
lim P(── ∑(Xᵢ – μᵢ)<α)=Φ(α)
n→∞ Bₙ ᵢ₌₁
李雅普诺夫中心极限定理的条件在很多情况下是满足的,因此适用性也很广。
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。