目录
1背景知识 ▹
2经典中心极限定理 ▹
3 林德伯格中心极限定理 ▹
4李雅普诺夫中心极限定理 ▹
5多维中心极限定理 ▹
参考文献 ▹
中心极限定理(central limit theorem/CLT)是概率论(probability theory)一个非常重要的结论,它指出在一定条件下,独立(independent)随机变量的标准化的(normalized)和随样本量(sample size)变大会趋向正态分布(normal distribution),即它的累积分布函数(cumulative distribution function/CDF)会收敛于标准正态分布(standard normal distribution)的CDF
1
N(x)=∫ˣ₋∞ ── e⁻ˣ²/² dx。
√2π
中心极限定理不要求随机变量本身是正态分布的,所以它带来一个非常重要的结果:在一定条件下,我们可以使用对正态分布成立的方法去应对非正态分布。比如,对于样本量 n 足够大时,二项分布(binomial distribution) Bin(n,p) 可以用正态分布 N(np,np(1 – p)) 来近似。用具体事例来表达,如果我们抛 500 次硬币,由于每次抛硬币正面朝上的概率为
1
─ ,
2
我们可以将正面朝上的数量近似地视作一个 N(250,125) 的随机变量。中心极限定理有很多种版本,也有对于非独立变量的变式。在本篇文章中,我们将要介绍对于独立变量的中心极限定理的三个版本。在此之前,我们需要先引入相关概念。
1 背景知识
首先,我们要引入依分布收敛(convergence in distribution)和依概率收敛(convergence in probability)的概念。令(Ω,F,ℙ) 为一个概率空间(probability space)。随机变量 X 的CDF被定义为 F(x)=ℙ(X ≤ x) 。
定义 1.1 对于随机变量序列 X₁,X₂,. . . 和任意 ϵ>0 ,若
lim ℙ(|Xₙ – X|>ϵ)=0
n→∞
其中 X 是一个随机变量,则称 Xₙ 依概率收敛于 X ,写作
P
Xₙ → Ⅹ .
定义 1.2 对于CDF为 Fₙ 的随机变量序列 X₁,X₂,. . . ,若对于任意 F 的连续点(point of continuity) x ,
lim Fₙ(x)=F(x)
n→∞
其中 X 是CDF为 F 的随机变量,则称 Xₙ 依分布收敛于 X ,
D
写作 Xₙ → X ,也称 Fₙ 弱收敛(converge weakly)于 F ,写作 Fₙ ⇒ F .
依概率收敛是比依分布收敛更强的条件,即若Xₙ 依概率收敛于 X ,则 Xₙ 依分布收敛于 X 。
命题 1.3 令 Xₙ 和 X 为同一个概率空间中的随机变量.
P D
若 Xₙ → X ,则 Xₙ → X .
证明 令 x 为 F 的一个连续点. 由于
ℙ(Xₙ ≤ x)=ℙ(Xₙ ≤ x,|Ⅹₙ – X| ≤ ϵ)+ℙ(Xₙ ≤ x,|Ⅹₙ – X|>ϵ)
我们有
ℙ(Xₙ ≤ x)=ℙ(X ≤ x+ϵ)+ℙ(|Xₙ – X|>ϵ)
以及
ℙ(X ≤ x – ϵ)=ℙ(Xₙ ≤ x)+ℙ(|Xₙ – X|>ϵ)
令 n→∞ ,由于 lim ℙ(|Xₙ – X|>ϵ)=0,我们得到
F(x – ϵ) ≤ lim inf Fₙ(x) ≤ lim sup Fₙ(x) ≤ F(x)
令 ϵ → 0 ,得到
F(xˉ) ≤ lim inf Fₙ(x) ≤ lim sup Fₙ(x) ≤ F(x)
由于 x 是连续点, F(xˉ)=F(x)=lim Fₙ(x) .
接下来我们介绍特征函数(characteristic function)的概念。
定义 1.4 一个实值(real-valued)随机变量 X 的特征函数是 ф(t)=𝔼 [eⁱᵗˣ] .
特征函数和CDF的关系由逆公式(inversion formula)
1
F(b) – F(α)=lim ─ ∫ᵀ₋ᴛ ↓
T→∞ 2π
e⁻ⁱαᵗ – e⁻ⁱᵇᵗ
────── ф(t) dt
it
给出,这里α,b 是 F 的连续点,且一个随机变量的的特征函数可以唯一地决定其分布。特征函数和概率密度分布(probability density function/PDF)的关系由
1
f(x)=─ ∫∞₋∞ e⁻ⁱᵗˣф(t) dt
2π
给出。特征函数有一个重要特性:对于独立的随机变量X 和 Y , фx+ʏ(t)=фx(t)фʏ(t) 。现在我们要证明连续性定理(continuity theorem),它指出特征函数的另一个重要特性:依分布收敛和特征函数的收敛是等价的。
定理 1.5(连续性定理)令随机变量 Xₙ 和 X 的CDF Fₙ 和 F 为对应它们的特征函数 фₙ 和 ф . 那么,当且仅当 фₙ(t) → ф(t)∀t ,
D
Xₙ → X .
D
证明 首先假设 Xₙ → X ,我们要证明 фₙ(t) → ф(t)∀t .
D
根据Portmanteau定理,Xₙ → X 可以推出,对于任意有界连续(bounded continuous)函数 f ,我们有 𝔼[f(Xₙ)] → 𝔼[f(X)] . 将此结论应用于函数 eⁱᵗˣ 的实部(real part)和虚部(imaginary part),我们有 фₙ(t) → ф(t) .
接下来假设 фₙ(t) → ф(t)∀t ,我们要证明 Fₙ ⇒ F .
根据富比尼定理(Fubini's theorem),对于 u>0 ,
1 1
─ ∫ᵘ₋ᵤ(1 – фₙ(t)) dt=─ ∫ᵘ₋ᵤ 𝔼[1 – eⁱᵗXₙ] ↓
u u
1 – eⁱᵗXₙ
dt=𝔼 [∫ᵘ₋ᵤ ─── dt]
u
1 – cos tXₙ
=𝔼[∫ᵘ₋ᵤ ─── dt]
u
sin uXₙ
=2𝔼[1 – ─── ] ≥ 2 ∫Ω1{|Xₙ|≥2/u}
uXₙ
sin uXₙ
(1 – ─── ) dℙ
uXₙ
≥2 ∫Ω1{|Xₙ|≥2/u}
1
(1– ───) dℙ ≥ 2 ∫Ω1{|Xₙ|≥2/u}
u|Xₙ|
1
(1 – ─) dℙ=ℙ(|Xₙ|≥2/u)
2
由于 ф(0)=1 ,且 ф 在 0 处连续,对于足够小的 u 和任意 ϵ>0 ,
1
─ ∫ᵘ₋ᵤ(1 – ф(t)) dt<ϵ .
u
由于 фₙ(t) → ф(t) ,根据勒贝格控制收敛定理(Lebesgue's dominated convergence theorem),存在 N 使得
1
─ ∫ᵘ₋ᵤ(1 – фₙ(t)) dt<2ϵ∀n>N,
u
因此 ℙ(|Xₙ|≥2/u)<2ϵ∀n>N . 在必要情况下减小 u ,我们可以确保 ℙ(|Xₙ|≥2/u)<2ϵ∀n ,因此 ℙ(Xₙ ∈ [–2/u,2/u])>1 – 2ϵ∀n ,即 {Fₙ} 是紧的(tight). 根据Prokhorov定理,存在子序列 nₖ 和CDF G 使得 Fₙₖ ⇒ G . 根据此定理的前半部分,我们有 фₙₖ(t) → фɢ(t),这里 фɢ 是对应CDF G 的特征函数. 根据特征函数的唯一性, F=G ,即 Fₙₖ ⇒ F . 又因为 Fₙ 是紧的,根据黑利选择定理(Helly's selection theorem)的推论我们得到 Fₙ ⇒ F .
到这里我们就完成了对背景知识的介绍。
2 经典中心极限定理
最早版本的CLT又叫作Lindeberg-Levy CLT,它对应的是i.i.d的情况。这里随机变量序列{Xₙ} 中的各项不仅是独立的,还有相同的CDF,这是一个非常严格的条件。令 Sₙ=X₁+· · ·+Xₙ 。经典CLT说,标准化的 Sₙ 会依分布收敛于标准正态分布。
定理 2.1(经典CLT)令 {Xₙ} 为均值为 μ ,方差为 σ²<∞ 的i.i.d随机变量序列,并令 Sₙ=X₁+· · ·+Xₙ . 那么,
Sₙ – nμ D
──── → Z
σ√n
这里 Z ∼ N(0,1) .
证明 步骤 1 我们首先证明, Z 的特征函数是 фᴢ(t)=e⁻ᵗ²/² .
1
由于 Z 的PDF是 ── e⁻ˣ²/²,那么
√2π
1
𝔼[eⁱᵗᶻ ]=── ∫∞₋∞ e⁻ⁱᵗˣ⁻ˣ²/²
√2π
1
dx=e⁻ᵗ²/² ── ∫∞₋∞ e⁻⁽ˣ⁻ⁱᵗ⁾²/² dx .
√2π
我们想要证明
1
l=── ∫∞₋∞ e⁻⁽ˣ⁻ⁱᵗ⁾²/² dx=1
√2π
1
lᴀ=── ∫ᴬ₋ᴀ e⁻⁽ˣ⁻ⁱᵗ⁾²/²
√2π
1
dx=── ∫ᴬ⁻ⁱᵗ₋ᴀ₋ᵢₜ e⁻ʸ²/²
√2π
1
dy=── ∫ᴬ⁻ⁱᵗ₋ᴀ₋ᵢₜ e⁻ᶻ²/²
√2π
1
dz – ── ∫ᴬ₋ᴀ e⁻ᶻ²/² dz+Jᴀ
√2π
1
,这里 Jᴀ=── ∫ᴬ₋ᴀ e⁻ʸ²/² dy.
√2π
由于 e⁻ᶻ²/² 是一个解析(analytic)函数,对于任意闭(closed)曲线 C, ∫ᴄ e⁻ᶻ²/²=0 . 令闭曲线 C₀ 为 –A → A → A – it → –A – it → –A ,那么
1
lᴀ – Jᴀ=── ∫c₀ e⁻ᶻ²/²
√2π
1
dz – ── ∫ᴬ⁻ⁱᵗᴀ e⁻ᶻ²/²
√2π
1
dz – ─── ∫⁻ᴬ₋ᴀ₋ᵢₜ e⁻ᶻ²/² dz .
√2π
令 A → ∞ ,我们得到
1
l – lim Jᴀ=l – 1=lim – (── ∫ᴬ⁻ⁱᵗᴀ e⁻ᶻ²/²
A→∞ A→∞ √2π
1
dz+── ∫⁻ᴬᴀ ᵢₜ e⁻ᶻ²/² dz)=0.
√2π
步骤 2 对于模(modulus)至多为 1 的复数 z₁,· · ·,zₙ 和 ω₁,· · ·,ωₙ ,我们有
ₙ
|z₁ · · · zₙ – ω₁ · · · ωₙ|=│∑ z₁ · · · zⱼ₋₁(zⱼ – ωⱼ)
ⱼ₌₁
ₙ
ωⱼ₊₁ · · · ωₘ│≤ ∑│zⱼ – ωⱼ│
ⱼ₌₁
步骤 3 不失一般性地假设 μ=0,σ=1 . 对于独立的
ₙ
Xᵢ , 𝔼[eⁱᵗ∑ⁿⱼ₌₁Xⱼ]=∏ 𝔼[eⁱᵗXⱼ] .
ⱼ₌₁
由于 Xᵢ 是独立的, фsₙ/√n=фx₁(t/√n)ⁿ . 固定 t ∈ ℝ ,并选取足够大的 n ,使得
t²
1 – ─>1.
2n
t²
令 zⱼ=фx₁(t/√n) ,并令 ωⱼ=1 – ─ .
2n
1
根据步骤2,以及 │eⁱˣ – (1+ix – – ─ x²)│
2
1
≤ min (─│x³│,x²)
6
,我们得到
t²
│фsₙ/√n – (1 – ─)ⁿ│≤ n│фx₁(t/√n)
2n
t² |t|³|X₁|³
– (1 – ─)│≤ 𝔼 [min (───,t²|X₁|²)]
2n √n
|t|³|X₁|³
由于 lim min (───,t²|X₁|²)=0,
n→∞ √n
根据控制收敛定理,
|t|³|X₁|³
lim 𝔼 [min(───,t²|X₁|²)]=0 .
n→∞ √n
t²
那么 lim фsₙ/√n=lim(1 – ─)ⁿ=e⁻ᵗ²/²=фᴢ(t)
2n
D
,所以根据连续性定理,Sₙ/√n → Z .
应用经典CLT,我们可以得到一些常见结论。对于二项分布变量Xₙ ∼ Bin(n,p),根据经典CLT,我们有
Xₙ – np D
───── → Z ⇔ ℙ(Xₙ ≤ x) → ℙ
√np(1 – p) n→∞
x – np
(Z ≤ ─────)
√np(1 – p)
当样本量n 足够大时,我们可以用正态分布 N(np,np(1 – p)) 来近似 Xₙ 。对于泊松分布(Poisson distribution) Xλ ∼ Poisson(λ) ,根据经典CLT,当 λ → ∞ ,我们有
Xλ – λ D
──── → Z
√λ
数学联邦政治世界观提示您:看后求收藏(笔尖小说网http://www.bjxsw.cc),接着再看更方便。