阅读地图
- 本章进入收敛理论、强大数定律、特征函数、中心极限定理和 Stein 方法。
- 四种收敛模式的强弱关系是阅读的坐标系:a.s.、Lp、P、D。
- 证明中要特别跟踪是否用了独立性、矩条件、截断或 Borel-Cantelli。
提示 凡是出现极限分布,都先问:是依概率极限、分布极限,还是几乎处处极限?
习题4.2
旁注
四种收敛模式要分清:a.s.、Lp、P 和 D。看到箭头时先判断它是哪一种。
题目:4.2.1
证明如下两个不等式。
(1)(Lyapunov 不等式)对 0<r<s,有
(E[∣X∣r])1/r≤(E[∣X∣s])1/s.
(2)(Cr 不等式)对 r>0,有
E[∣X+Y∣r]≤Cr(E[∣X∣r]+E[∣Y∣r]),
其中
Cr={1,2r−1,0<r<1,r≥1.
证明
(1) 令 α=sr∈(0,1)。由于函数 x↦xα 在 [0,∞) 上凹,故由 Jensen 不等式,
E[∣X∣r]=E[(∣X∣s)α]≤(E[∣X∣s])α.
两边取 1/r 次方即得
(E[∣X∣r])1/r≤(E[∣X∣s])1/s.
2 当 0<r<1 时,对任意 a,b≥0 有
(a+b)r≤ar+br,
因而
∣X+Y∣r≤(∣X∣+∣Y∣)r≤∣X∣r+∣Y∣r.
取期望得
E[∣X+Y∣r]≤E[∣X∣r]+E[∣Y∣r].
当 r≥1 时,对任意 a,b≥0,由凸性或 Jensen 不等式可得
(a+b)r=2r(2a+b)r≤2r−1(ar+br).
因此
∣X+Y∣r≤2r−1(∣X∣r+∣Y∣r),
再取期望即得结论。
题目:4.2.2
已知 {Xn} 为随机变量列,实数列 {cn} 收敛于常数 c。在几乎处处收敛、Lp 收敛、依概率收敛和依分布收敛意义下分别证明
Xn→X⟹cnXn→cX.
证明
若 Xna.s.X,则对几乎处处的 ω,有
cnXn(ω)→cX(ω),
故 cnXna.s.cX。
若 XnLpX,则 X∈Lp,且 {cn} 有界。由前面的 Cr 不等式,存在只依赖于 p 的常数 Cp>0,使得
∣cnXn−cX∣p≤Cp(∣cn∣p∣Xn−X∣p+∣cn−c∣p∣X∣p).
两边取期望,便得
E[∣cnXn−cX∣p]→0,
即 cnXnLpcX。
若 XnPX,则
cnXn−cX=cn(Xn−X)+(cn−c)X.
由于 {cn} 有界,第一项依概率收敛于 0;第二项因 cn−c→0 为常数,故 a.s. 收敛于 0,从而也依概率收敛于 0。因此
cnXnPcX.
若 XnDX,则把 cn 看成常值随机变量,有 cnPc。由后面的 Slutsky 定理可得
cnXnDcX.
题目:4.2.3
证明当 n→∞ 时,
XnP0⟺E[1+∣Xn∣∣Xn∣]→0.
证明
若 XnP0,则对任意 ε>0,
E[1+∣Xn∣∣Xn∣]=E[1+∣Xn∣∣Xn∣;∣Xn∣<ε]+E[1+∣Xn∣∣Xn∣;∣Xn∣≥ε]≤ε+P(∣Xn∣≥ε).
令 n→∞ 后得
n→∞limsupE[1+∣Xn∣∣Xn∣]≤ε.
再令 ε↓0,便知
E[1+∣Xn∣∣Xn∣]→0.
反过来,若
E[1+∣Xn∣∣Xn∣]→0,
则对任意 ε>0,
E[1+∣Xn∣∣Xn∣]≥E[1+∣Xn∣∣Xn∣;∣Xn∣≥ε]≥1+εεP(∣Xn∣≥ε).
因而 P(∣Xn∣≥ε)→0,即 XnP0。
题目:4.2.4
随机变量列 {Xn}、{Yn} 满足 XnDX 且 YnPc,其中 X 是随机变量,c 为常数。证明
1 Xn+YnDX+c.
2 XnYnDcX,且当 c=0 时有
YnXnDcX.
证明
(1) 与 (2) 的前半部分正是下述 Slutsky 定理在 Zn≡0 时的结论,因此
Xn+YnDX+c,XnYnDcX.
当 c=0 时,由函数 x↦1/x 在 c 处连续可得
Yn1Pc1.
再对随机变量列 {Xn} 与 {1/Yn} 应用 Slutsky 定理,得到
YnXn=Xn⋅Yn1DcX.
设随机变量列 {Xn}、{Yn}、{Zn} 满足
XnDX,YnPb,ZnPc,
其中 X 为随机变量,b,c 为常数,则
XnYn+ZnDbX+c.
特别地,
Xn+YnDX+c,XnYnDbX,
且当 b=0 时,
YnXnDbX.
证明
先证一个常用引理:若
Un−VnP0,VnDV,
则 UnDV。
事实上,对任意 ε>0 及 V 的任一分布函数连续点 x,有
{Vn≤x−ε}∩{∣Un−Vn∣≤ε}⊂{Un≤x}
与
{Un≤x}⊂{Vn≤x+ε}∪{∣Un−Vn∣>ε}.
因此
P(Vn≤x−ε)−P(∣Un−Vn∣>ε)≤P(Un≤x)
以及
P(Un≤x)≤P(Vn≤x+ε)+P(∣Un−Vn∣>ε).
令 n→∞,得到
FV(x−ε)≤n→∞liminfP(Un≤x)≤n→∞limsupP(Un≤x)≤FV(x+ε).
再令 ε↓0,由 x 的连续性可知
P(Un≤x)→FV(x),
故 UnDV。
下面证明 Slutsky 定理。先看加法。由连续映射定理,
Xn+cDX+c.
又因为
(Xn+Yn)−(Xn+c)=Yn−cP0,
由上面的引理立得
Xn+YnDX+c.
再看乘法。由 XnDX 可知 {Xn} 是紧的。于是对任意 ε,η>0,可取 M>0 使得对充分大的 n,
P(∣Xn∣>M)<η.
从而
P(∣Xn(Yn−b)∣>ε)≤P(∣Xn∣>M)+P(∣Yn−b∣>Mε).
令 n→∞ 得
Xn(Yn−b)P0.
另一方面,由连续映射定理,
bXnDbX.
又
XnYn−bXn=Xn(Yn−b)P0,
故再由引理,
XnYnDbX.
最后,由 XnYnDbX 以及 ZnPc,将刚证明的加法情形应用于 {XnYn} 与 {Zn},便得
XnYn+ZnDbX+c.
若 b=0,则函数 x↦1/x 在 b 处连续,所以
Yn1Pb1.
再将上面的乘法结论应用于 Xn 与 1/Yn,便得到
YnXn=Xn⋅Yn1DbX.
习题4.3
旁注
Borel-Cantelli、子列原理和极值估计常一起出现。几乎处处结论通常要构造可求和的坏事件。
题目:4.3.1
设 {Xn} 相互独立且服从标准正态分布,利用第 3 章问题第 14 题 (1) 的结论证明
P(n→∞limsuplognXn=2)=1.
证明
对任意 a>0,记
An(a)={Xn≥2alogn}.
由第 3 章问题第 14 题 (1) 的标准正态尾概率估计,存在正常数 C1,C2,使得对充分大的 n,
C1lognn−a≤P(An(a))≤C2lognn−a.
若 0<a<1,则
n=2∑∞P(An(a))=∞.
由于 {An(a)} 相互独立,第二 Borel-Cantelli 引理给出
P(An(a) i.o.)=1.
这说明
n→∞limsuplognXn≥2aa.s.
若 a>1,则
n=2∑∞P(An(a))<∞,
故由第一 Borel-Cantelli 引理,
P(An(a) i.o.)=0,
即
n→∞limsuplognXn≤2aa.s.
因此对任意 0<a<1<b,几乎处处都有
2a≤n→∞limsuplognXn≤2b.
令 a↑1、b↓1,便得
n→∞limsuplognXn=2a.s.
题目:4.3.6
设随机变量 X1,⋯,Xn 独立同分布,且服从 [0,a] 上的均匀分布,其中 a>0。记
Mn=max{X1,⋯,Xn},
分别在 a.s.、p 阶收敛的意义下证明当 n→∞ 时 Mn→a。
证明
对任意 0<ε<a,有
P(∣Mn−a∣>ε)=P(Mn<a−ε)=(aa−ε)n.
因为
n=1∑∞(aa−ε)n<∞,
由第一 Borel-Cantelli 引理可知
∣Mn−a∣>ε
只会发生有限次。对有理数 ε>0 取可数交,即得
Mna.s.a.
又因为 0≤Mn≤a,故
∣Mn−a∣p≤ap.
结合 Mna.s.a,由 DCT 可得
E[∣Mn−a∣p]→0.
因而
MnLpa.
题目:4.3.7
随机变量列 {Xn} 满足 XnPX。证明存在子列 {Xnk} 满足
Xnka.s.X.
证明
由于 XnPX,对每个 k∈N∗ 都可取 nk>nk−1,使得
P(∣Xnk−X∣>2−k)<2−k.
于是
k=1∑∞P(∣Xnk−X∣>2−k)<∞.
由第一 Borel-Cantelli 引理,事件
∣Xnk−X∣>2−k
只会发生有限次。故几乎处处存在 K(ω),使得当 k≥K(ω) 时,
∣Xnk(ω)−X(ω)∣≤2−k.
于是 Xnk(ω)→X(ω),即
Xnka.s.X.
题目:4.3.8
1 设 {Xn} 是相互独立的实值随机变量列且满足 XnP0,{an} 为单调递增至 +∞ 的正实数列。问
anXna.s.0
是否成立?
2 设 {Xn} 是实值随机变量列,试构造正实数列 {cn},使得
cnXna.s.0.
证明
(1) 结论不一定成立。对给定的 {an},定义独立随机变量
P(Xn=an)=n+11,P(Xn=0)=1−n+11.
由于 an→∞,对任意 ε>0,当 n 充分大时 an>ε,故
P(∣Xn∣>ε)=n+11→0,
即 XnP0。但是
P(anXn=1)=n+11,n=1∑∞n+11=∞.
由第二 Borel-Cantelli 引理,
anXn=1
会发生无穷多次,故 anXn 不 a.s. 收敛于 0。
2 对每个 n,由 P(∣Xn∣>t)↓0 (t→∞),可取 cn>0 使得
P(∣Xn∣>2−ncn)<2−n.
记
An={∣Xn∣>2−ncn}.
则
n=1∑∞P(An)<∞.
由第一 Borel-Cantelli 引理,An 只会发生有限次。故几乎处处存在 N(ω),使得当 n≥N(ω) 时,
cnXn≤2−n.
因此
cnXna.s.0.
习题4.4
旁注
强大数定律的证明常靠截断、四阶矩或 Borel-Cantelli。注意矩条件分别控制哪些尾事件。
题目:4.4.1
{Xn} 为非负独立同分布随机变量列,E[X1]=+∞,证明
n1k=1∑nXka.s.+∞.
证明
对每个 M>0,令
Yk(M)=Xk∧M.
则 {Yk(M)} 仍是非负独立同分布随机变量列,且 E[Y1(M)]<∞。由强大数定律,
n1k=1∑nYk(M)a.s.E[Y1(M)].
又因 Xk≥Yk(M),故
n→∞liminfn1k=1∑nXk≥n→∞limn1k=1∑nYk(M)=E[Y1(M)]a.s.
由于 Y1(M)↑X1,由 MCT,
E[Y1(M)]↑E[X1]=+∞.
因而对任意 L>0,可取 M 充分大使得 E[Y1(M)]≥L。于是
n→∞liminfn1k=1∑nXk≥La.s.
由于 L 任意,得到
n1k=1∑nXka.s.+∞.
题目:4.4.2
(Weierstrass 逼近定理)任给连续函数 f:[0,1]→R,随机变量 Sn 服从二项分布 B(n,x),证明
n→+∞lim0≤x≤1supf(x)−k=0∑nf(nk)(kn)xk(1−x)n−k=0.
证明
对固定的 x∈[0,1],令 Sn∼B(n,x)。则
P(Sn=k)=(kn)xk(1−x)n−k,
因而
k=0∑nf(nk)(kn)xk(1−x)n−k=E[f(nSn)].
于是只需证明
0≤x≤1supE[f(nSn)]−f(x)→0.
由于 f 在 [0,1] 上连续,故一致连续。任给 ε>0,存在 δ>0,使得当 ∣u−v∣<δ 时,
∣f(u)−f(v)∣<ε.
记 M=sup0≤y≤1∣f(y)∣。则
E[f(nSn)]−f(x)≤E[f(nSn)−f(x);nSn−x<δ]+E[f(nSn)−f(x);nSn−x≥δ]≤ε+2MP(nSn−x≥δ).
由 Chebyshev 不等式,
P(nSn−x≥δ)≤δ2Var(Sn/n)=nδ2x(1−x)≤4nδ21.
因而
0≤x≤1supE[f(nSn)]−f(x)≤ε+2nδ2M.
令 n→∞ 后再令 ε↓0,即得结论。
题目:4.4.3
随机变量 X1,⋯,Xn 独立同分布,满足 E[X1]=0、E[X14]<∞。不利用强大数定律的结论,直接证明
n1k=1∑nXka.s.0.
证明
记
Sn=k=1∑nXk.
由于 E[X1]=0,由独立性展开四阶矩可得
E[Sn4]=nE[X14]+6(2n)(E[X12])2=O(n2).
因而存在常数 C>0,使得对所有 n,
E[Sn4]≤Cn2.
由 Markov 不等式,
P(∣Sn∣>nε)≤n4ε4E[Sn4]≤n2ε4C.
所以
n=1∑∞P(∣Sn∣>nε)<∞.
由第一 Borel-Cantelli 引理,
P(∣Sn∣>nε i.o.)=0.
由于 ε>0 任意,得到
nSna.s.0.
题目:4.4.4
设 {Xn} 相互独立且服从参数为 1 的指数分布。
1 证明 (X1⋯Xn)1/n 几乎处处收敛,并求出收敛值。
2 探索
X11+⋯+Xn1n
的极限分布。
证明
(1) 令 Yn=logXn。由于 Xn∼Exp(1),有
E[∣Y1∣]<∞,E[Y1]=∫0∞(logx)e−xdx=−γ,
其中 γ 为 Euler 常数。由强大数定律,
n1k=1∑nYka.s.−γ.
因而
(X1⋯Xn)1/n=exp(n1k=1∑nYk)a.s.e−γ.
2 令
Zk=Xk1.
则 Zk≥0 且 {Zk} 独立同分布。又
E[Z1]=∫0∞x1e−xdx=+∞.
由上一题结论,
n1k=1∑nZka.s.+∞.
于是
X11+⋯+Xn1n=(n1k=1∑nZk)−1a.s.0.
因而它的极限分布为退化分布 δ0。
题目:4.4.5
区间 [0,1] 被划分成 n 个互不相交的子区间之并,子区间长度分别为 p1,p2,⋯,pn,定义该划分的熵为
h=−i=1∑npilogpi.
设 X1,X2,⋯,Xm 是相互独立且均服从 [0,1] 上均匀分布的随机变量,定义 Zm(i) 是 X1,⋯,Xm 中位于第 i 个区间的总数,
Rm=i=1∏npiZm(i).
证明当 m→∞ 时,
mlogRma.s.−h.
证明
对每个 k,定义
Yk=i=1∑n(logpi)1{Xk 落在第 i 个区间}.
则 {Yk} 独立同分布,且
P(Yk=logpi)=pi,1≤i≤n.
于是
E[Y1]=i=1∑npilogpi=−h.
另一方面,
logRm=i=1∑nZm(i)logpi=k=1∑mYk.
由强大数定律,
mlogRm=m1k=1∑mYka.s.E[Y1]=−h.
题目:4.4.7
随机变量列 {Xk:k≥2} 相互独立且满足
P(Xk=2k)=P(Xk=−2k)=2klogk1,P(Xk=0)=1−klogk1.
记
Sn=X2+⋯+Xn,
证明
nSnP0,n(n−1)Sna.s.0,
但
nSn
不 a.s. 收敛于 0。
证明
先注意到
E[Xk]=0,
且
E[Xk2]=4k2⋅klogk1+1−klogk1≤Clogkk.
因此
Var(nSn)=n21k=2∑nE[Xk2].
又有
k=2∑nlogkk≤k≤n∑log2k+k>n∑logn2k=O(lognn2),
故
Var(nSn)=O(logn1)→0.
由 Chebyshev 不等式,
nSnP0.
再看几乎处处收敛。由上面的估计,
Var(Sn)=k=2∑nE[Xk2]=O(lognn2).
故对任意 ε>0,由 Chebyshev 不等式,
P(n(n−1)Sn>ε)≤ε2n2(n−1)2Var(Sn)=O(n2logn1).
因而
n=2∑∞P(n(n−1)Sn>ε)<∞.
由第一 Borel-Cantelli 引理,
n(n−1)Sna.s.0.
最后证明 nSn 不 a.s. 收敛于 0。记
An={Xn=2n}.
则 {An} 相互独立,且
n=2∑∞P(An)=n=2∑∞2nlogn1=∞.
由第二 Borel-Cantelli 引理,An a.s. 无穷多次发生。若假设
nSna.s.0,
则
nSn−1=nn−1⋅n−1Sn−1a.s.0.
但在 An 上,
nSn=nSn−1+2.
由于 An 无穷多次发生,这与 nSn→0 矛盾。故
nSn
不 a.s. 收敛于 0。
习题5.1
旁注
特征函数里,独立和对应乘积,线性变换对应缩放,分布收敛可由逐点收敛刻画。
题目:5.1.1
随机变量 X 的密度
f(x)=21e−∣x∣,−∞<x<∞,
求 X 的特征函数。
证明
ϕX(t)=E[eitX]=21∫−∞∞eitx−∣x∣dx=∫0∞e−xcos(tx)dx=1+t21.
题目:5.1.2
已知 {U,V} 与 {X,Y} 独立,令
Z=U2+V2UX+VY.
证明若 X 与 Y 独立且均服从 N(0,1),则 Z∼N(0,1)。若 (X,Y) 服从标准二元正态分布,上述结论是否成立?
证明
若 X,Y 独立且都服从 N(0,1),则对任意固定的 (u,v)∈R2,
uX+vY∼N(0,u2+v2).
因此在 (U,V)=(u,v) 条件下,
Z∣(U,V)=(u,v)∼N(0,1).
也就是说,对任意 t∈R,
E[eitZ∣U,V]=e−t2/2.
再取期望,得到
E[eitZ]=e−t2/2,
故 Z∼N(0,1)。
若 (X,Y) 只服从标准二元正态分布而不要求独立,则结论一般不成立。设
Cov(X,Y)=ρ=0,
并取 U=V=1(常数),则
Z=2X+Y.
于是
Var(Z)=21Var(X+Y)=21(1+1+2ρ)=1+ρ=1.
所以此时 Z∼N(0,1)。因此一般情形下结论不成立。
题目:5.1.3
记
ϕ(t)=(tsint)2.
试用概率方法证明对实数 t1,⋯,tn,矩阵
Hn=(ϕ(ti−tj))i,j=1n
非负定。
证明
取独立同分布随机变量 X,Y∼U[−1,1]。则
ϕX(t)=ϕY(t)=tsint.
因而
ϕX+Y(t)=ϕX(t)ϕY(t)=(tsint)2=ϕ(t).
这说明 ϕ 是某个随机变量(即 X+Y)的特征函数。
于是对任意复数 c1,⋯,cn,有
i,j=1∑ncicjϕ(ti−tj)=i,j=1∑ncicjE[ei(ti−tj)(X+Y)]=Ej=1∑ncjeitj(X+Y)2≥0.
故矩阵 Hn 非负定。
题目:5.1.5
设 X1,X2,⋯,Xn 为一族相互独立的随机变量,令
Yn=X12+X22+⋯+Xn2.
1 假设 Xi∼N(i,1),试求 Yn 的特征函数。
2 假设 Xi∼N(1,1)。若随机变量 N∼P(λ),且 N 与 Xi(i=1,2,⋯)均独立,试求 YN 的特征函数。
证明
若 X∼N(μ,1),则
E[eitX2]=2π1∫Rexp(itx2−2(x−μ)2)dx=1−2it1exp(1−2itiμ2t).
1 由独立性,
ϕYn(t)=k=1∏nE[eitXk2]=(1−2it)−n/2exp(1−2ititk=1∑nk2).
即
ϕYn(t)=(1−2it)−n/2exp(1−2itit⋅6n(n+1)(2n+1)).
2 此时
ϕX12(t)=(1−2it)−1/2exp(1−2itit).
条件于 N=m 时,
ϕYN∣N=m(t)=ϕX12(t)m.
因此
ϕYN(t)=E[ϕX12(t)N]=exp{λ(ϕX12(t)−1)}.
即
ϕYN(t)=exp{λ((1−2it)−1/2exp(1−2itit)−1)}.
题目:5.1.7
设 X1,⋯,Xn 独立同分布,记
Sn=X1+⋯+Xn.
1 若矩母函数 M(t)=E[etX1] 存在,证明尾概率估计
P(X1≥a)≤t>0inf{e−atM(t)}.
2 若 P(X1=1)=P(X1=−1)=21,试证明对任意 a>0 均有
P(Sn≥a)≤e−2na2.
证明
(1) 对任意 t>0,由 Markov 不等式,
P(X1≥a)=P(etX1≥eta)≤e−taE[etX1]=e−taM(t).
再对 t>0 取下确界即得
P(X1≥a)≤t>0inf{e−atM(t)}.
2 对任意 t>0,由 (1) 作用于 Sn 得
P(Sn≥a)≤e−atE[etSn]=e−at(E[etX1])n.
又
E[etX1]=2et+e−t=cosht.
并且
cosht=m=0∑∞(2m)!t2m≤m=0∑∞m!(t2/2)m=et2/2.
因而
P(Sn≥a)≤exp(−at+2nt2).
取 t=na,得到
P(Sn≥a)≤e−a2/(2n).
题目:5.1.8
若随机变量 X 的尾部概率对某正常数 K 满足
P(∣X∣≥t)≤2e−t2/K2,∀t≥0,
则称 X 为次高斯随机变量。证明
1 若 X 的矩母函数满足
E[esX]≤es2/2,∀s∈R,
则 X 为次高斯随机变量。
2 次高斯随机变量的矩满足不等式
E[∣X∣p]≤(K1p)p,∀p≥1.
这里 K1 为不依赖 p 的正常数。提示:必要时可以利用 Stirling 公式
n!∼nne−n2πn.
证明
(1) 对任意 s,t>0,由 Markov 不等式,
P(X≥t)=P(esX≥est)≤e−stE[esX]≤e−st+s2/2.
取 s=t,得
P(X≥t)≤e−t2/2.
同理对 −X 也有
P(X≤−t)≤e−t2/2.
因而
P(∣X∣≥t)≤2e−t2/2,
故 X 为次高斯随机变量。
2 由矩的尾积分公式,
E[∣X∣p]=∫0∞ptp−1P(∣X∣>t)dt≤2p∫0∞tp−1e−t2/K2dt.
作代换 u=t2/K2,得
E[∣X∣p]≤pKp∫0∞up/2−1e−udu=pKpΓ(p/2)=2KpΓ(p/2+1).
由 Stirling 公式,存在常数 C>0,使得对所有 p≥1,
Γ(p/2+1)≤Cppp/2.
因而
E[∣X∣p]≤(K1p)p
对某个与 p 无关的常数 K1 成立。
习题5.2
旁注
这里看分布收敛和独立性的传递。Cauchy 例题提醒我们:没有一阶矩时不能套大数定律直觉。
题目:5.2.2
若 Xn,Yn 独立,X,Y 也独立,且 XnDX、YnDY,证明
Xn+YnDX+Y.
证明
由独立性,
ϕXn+Yn(t)=ϕXn(t)ϕYn(t).
又因为 XnDX、YnDY,故对任意 t∈R,
ϕXn(t)→ϕX(t),ϕYn(t)→ϕY(t).
再由 X,Y 独立,
ϕX(t)ϕY(t)=ϕX+Y(t).
因而
ϕXn+Yn(t)→ϕX+Y(t).
由 Lévy 连续性定理,
Xn+YnDX+Y.
题目:5.2.3
随机变量 X1,⋯,Xn 相互独立且服从柯西分布,证明
n1k=1∑nXk
亦服从柯西分布。
证明
先计算标准柯西分布的特征函数。若 X 服从密度
f(x)=π(1+x2)1,
则
ϕX(t)=π1∫−∞∞1+x2eitxdx.
当 t>0 时,考虑
g(z)=1+z2eitz,
并取上半平面的半圆轮廓。由 Jordan 引理,半圆弧上的积分趋于 0。轮廓内只有极点 z=i,且
Res(g,i)=z→ilimz+ieitz=2ie−t.
故由留数定理,
∫−∞∞1+x2eitxdx=2πi⋅2ie−t=πe−t.
因而
ϕX(t)=e−t,t>0.
又由于密度 f 是偶函数,
ϕX(t)=π1∫−∞∞1+x2cos(tx)dx,
从而 ϕX 是偶函数。故当 t<0 时,
ϕX(t)=ϕX(−t)=e−(−t)=et.
再加上 ϕX(0)=1,综上
ϕX(t)=e−∣t∣,t∈R.
因而
ϕXk/n(t)=ϕXk(nt)=e−∣t∣/n.
由独立性,
ϕn1∑k=1nXk(t)=k=1∏nϕXk/n(t)=(e−∣t∣/n)n=e−∣t∣.
这与标准柯西分布的特征函数相同,故
n1k=1∑nXk
仍服从柯西分布。
题目:5.2.5
设 ϕn(t)=cosnt,t∈R。
1 求特征函数 ϕ2(t) 对应的分布函数;
2 对一般的正整数 n,ϕn(t) 是否为特征函数?回答并给出理由。
证明
(1) 若定义随机变量 X 满足
P(X=−2)=41,P(X=0)=21,P(X=2)=41,
则
ϕX(t)=41e−2it+21+41e2it=cos2t.
因而 ϕ2 对应的分布函数为
F2(x)=⎩⎨⎧0,41,43,1,x<−2,−2≤x<0,0≤x<2,x≥2.
2 对任意正整数 n,令 Y1,⋯,Yn 独立同分布,且
P(Yk=1)=P(Yk=−1)=21.
则
ϕYk(t)=21(eit+e−it)=cost.
于是由独立性,
ϕY1+⋯+Yn(t)=k=1∏nϕYk(t)=cosnt=ϕn(t).
因而对任意正整数 n,ϕn(t) 都是特征函数。
习题5.3
旁注
中心极限定理题先确定中心化和标准化。方差随 n 变时,尺度要先算清楚。
题目:5.3.1
试选择合适的数列 {μn}、{σn} 证明
σnXn−μnDN(0,1).
1 Xn 服从参数为正整数 n 的泊松分布;
2 Xn 服从密度为
f(x)=Γ(n)xn−1e−x1x≥0
的 Γ 分布。
证明
(1) 若 Y1,⋯,Yn 独立同分布且 Yi∼P(1),则
Xn′:=Y1+⋯+Yn∼P(n),
即 Xn′ 与 Xn 同分布。由 i.i.d. CLT,
nXn′−nDN(0,1).
因而取
μn=n,σn=n,
就有
σnXn−μnDN(0,1).
2 若 Z1,⋯,Zn 独立同分布且每个 Zi 服从参数为 1 的指数分布,则
Xn′:=Z1+⋯+Zn
的密度正是
f(x)=Γ(n)xn−1e−x1x≥0.
于是 Xn′ 与 Xn 同分布。再次由 i.i.d. CLT,
nXn′−nDN(0,1).
故同样取
μn=n,σn=n,
即得
σnXn−μnDN(0,1).
题目:5.3.3
随机变量 X1,⋯,Xn 独立同分布且满足
P(X1=1)=P(X1=−1)=21,
证明
n3/23k=1∑nkXkDN(0,1).
证明
记
Yn,k=kXk,1≤k≤n.
则 {Yn,k}k=1n 相互独立,且
E[Yn,k]=0,Var(Yn,k)=k2.
令
Bn2=k=1∑nVar(Yn,k)=k=1∑nk2=6n(n+1)(2n+1).
对任意 ε>0,当 n 充分大时,由于 Bn≍n3/2,便有
∣Yn,k∣=k≤n<εBn,1≤k≤n.
从而
k=1∑nE[Yn,k2;∣Yn,k∣>εBn]=0,
所以 Lindeberg 条件显然成立。由 Lindeberg-Feller CLT,
Bn∑k=1nkXkDN(0,1).
又
n3/2Bn=6n2(n+1)(2n+1)⟶31,
因而
n3/23k=1∑nkXkDN(0,1).
习题5.5
旁注
Slutsky 定理用于把随机误差替换为常数极限;关键是加数或乘数是否依概率收敛到常数。
题目:5.5.12
Slutsky 定理的叙述如下:设随机变量 {Xn}、{Yn}、{Zn} 满足
XnDX,YnPb,ZnPc,
其中 X 为随机变量,b,c 为常数,则
XnYn+ZnDbX+c.
试利用 Slutsky 定理回答如下问题:
1 设随机变量列 {Xn} 独立同分布,E[X1]=0 且二阶矩有限,令
X=n1k=1∑nXk,
证明
∑k=1n(Xk−X)2∑k=1nXkDN(0,1).
2 随机变量列 {Xn} 相互独立且满足
P(Xn=±2n)=2n+11,P(Xn=±1)=21−2n+11,
证明
n1k=1∑nXkDN(0,1).
3 随机变量列 {Xn} 独立同分布,且满足 E[X1]=Var(X1)=1。记
Sn=k=1∑nXk,
证明
23nSn3/2−n3/2DN(0,1).
证明
(1) 记 σ2=Var(X1)。由 CLT,
σn∑k=1nXkDN(0,1).
又
n1k=1∑n(Xk−X)2=n1k=1∑nXk2−X2.
由弱大数定律,
n1k=1∑nXk2PE[X12]=σ2,XP0.
因而
n1k=1∑n(Xk−X)2Pσ2,n1∑k=1n(Xk−X)2σP1.
于是由 Slutsky 定理,
∑k=1n(Xk−X)2∑k=1nXk=σn∑k=1nXk⋅n1∑k=1n(Xk−X)2σDN(0,1).
2 不妨设
Xk=(1−Bk)εk+Bk2kηk,
其中 {Bk}、{εk}、{ηk} 相互独立,且
P(Bk=1)=2−k,P(εk=±1)=P(ηk=±1)=21.
这样定义的 Xk 正好具有题中的分布。记
Tn=k=1∑nεk,Rn=k=1∑nBk(2kηk−εk).
则
k=1∑nXk=Tn+Rn.
又因为
k=1∑∞P(Bk=1)=k=1∑∞2−k<∞,
由第一 Borel-Cantelli 引理,事件 {Bk=1} 只会发生有限次。故 Rn a.s. 最终为常数,从而
nRna.s.0.
另一方面,由 CLT,
nTnDN(0,1).
因此由 Slutsky 定理,
n1k=1∑nXk=nTn+nRnDN(0,1).
3 记
Tn=nSn−n,Un=nSn.
由 CLT,
TnDN(0,1),
由弱大数定律,
UnP1.
又
23nSn3/2−n3/2=Tn⋅32⋅Un−1Un3/2−1.
记
g(u)=32⋅u−1u3/2−1(u=1),g(1)=1.
则 g 在 u=1 处连续,故
g(Un)P1.
再由 Slutsky 定理,
23nSn3/2−n3/2DN(0,1).
习题5.4
旁注
这一节进入更强的极限定理和 Stein 方法。读证明时区分弱收敛、矩界和可积性各自用在哪里。
题目:5.4.1
随机变量X1,X2,…独立同分布,P(X1=1)=P(X1=−1)=21,证明对任意δ>0均有
n1/2+δ1k=1∑nXka.s.0.
证明
如果只用Chebyshev不等式,你会发现只能做到δ>1/2。我们尝试使用更高阶矩。待定正整数 m。记
Sn=k=1∑nXk.
对任意 ε>0,由 Markov 不等式,
P(n1/2+δSn>ε)=P(n1/2+δSn2m>ε2m)≤ε2mnm+2mδE∣Sn∣2m.
下面估计 E∣Sn∣2m。展开得
ESn2m=i1,…,i2m=1∑nE(Xi1⋯Xi2m).
由于 Xi 独立且 EXi=0,若某个指标只出现奇数次,则该项期望为 0。因此非零项中出现的不同指标个数至多为 m。于是存在只依赖于 m 的常数 Cm,使得
ESn2m≤Cmnm.
从而
P(n1/2+δSn>ε)≤ε2mCmn−2mδ.
选取正整数 m 使得
2mδ>1.
则
n=1∑∞P(n1/2+δSn>ε)<∞.
由 Borel-Cantelli 引理,
P(n1/2+δSn>ε i.o.)=0.
因此对任意固定的 ε>0,几乎必然存在 N(ω),使得当 n≥N(ω) 时,
n1/2+δSn≤ε.
再令 ε 取所有正有理数,即得
n1/2+δSna.s.0.
题目:5.4.4
设 {Xk} 为独立同分布随机变量列,
EX1=0,Var(X1)=1,E∣X1∣3<∞.
试用 Lindeberg 替换法证明 CLT 的收敛速度
t∈RsupP(n1k=1∑nXk≤t)−Φ(t)=O(n−1/8).
这里 Φ(t) 表示标准正态分布函数。
证明
记
Sn=k=1∑nXk,Wn=nSn.
令 Y1,…,Yn 为独立同分布的标准正态随机变量,并且与 X1,…,Xn 独立。记
Zn=n1k=1∑nYk.
则 Zn∼N(0,1),所以
P(Zn≤t)=Φ(t).
取 ε>0。存在光滑函数 ft,ε∈C3(R),使得
1{x≤t}≤ft,ε(x)≤1{x≤t+ε},
且
∥ft,ε(3)∥∞≤Cε−3,
其中常数 C 与 t,ε,n 无关。
下面估计
∣Eft,ε(Wn)−Eft,ε(Zn)∣.
逐个将 Xk 替换为 Yk。令
Tk=n1(Y1+⋯+Yk−1+Xk+1+⋯+Xn).
则 Tk 与 Xk,Yk 独立。由 Taylor 展开,
ft,ε(Tk+nXk)=ft,ε(Tk)+nXkft,ε′(Tk)+2nXk2ft,ε′′(Tk)+Rk,X,
其中
∣Rk,X∣≤6∥ft,ε(3)∥∞n3/2∣Xk∣3.
同理,
ft,ε(Tk+nYk)=ft,ε(Tk)+nYkft,ε′(Tk)+2nYk2ft,ε′′(Tk)+Rk,Y,
且
∣Rk,Y∣≤6∥ft,ε(3)∥∞n3/2∣Yk∣3.
因为
EXk=EYk=0,EXk2=EYk2=1,
且 Tk 与 Xk,Yk 独立,所以一阶项和二阶项在取期望后相消。因此
Eft,ε(Tk+nXk)−Eft,ε(Tk+nYk)≤Cε−3n−3/2.
将 k=1,…,n 相加,得到
∣Eft,ε(Wn)−Eft,ε(Zn)∣≤Cε−3n−1/2.
于是
P(Wn≤t)≤Eft,ε(Wn)≤Eft,ε(Zn)+Cε−3n−1/2.
又因为
ft,ε(x)≤1{x≤t+ε},
所以
Eft,ε(Zn)≤P(Zn≤t+ε)=Φ(t+ε).
因此
P(Wn≤t)−Φ(t)≤Φ(t+ε)−Φ(t)+Cε−3n−1/2.
由于标准正态密度有界,
Φ(t+ε)−Φ(t)≤Cε,
故
P(Wn≤t)−Φ(t)≤Cε+Cε−3n−1/2.
另一方面,同理取光滑函数满足
1{x≤t−ε}≤gt,ε(x)≤1{x≤t},∥gt,ε(3)∥∞≤Cε−3.
重复上述 Lindeberg 替换,得到
∣Egt,ε(Wn)−Egt,ε(Zn)∣≤Cε−3n−1/2.
因此
P(Wn≤t)≥Egt,ε(Wn)≥Egt,ε(Zn)−Cε−3n−1/2.
又
Egt,ε(Zn)≥P(Zn≤t−ε)=Φ(t−ε),
所以
Φ(t)−P(Wn≤t)≤Φ(t)−Φ(t−ε)+Cε−3n−1/2≤Cε+Cε−3n−1/2.
综上,对任意 t∈R,
∣P(Wn≤t)−Φ(t)∣≤Cε+Cε−3n−1/2.
取
ε=n−1/8,
得
∣P(Wn≤t)−Φ(t)∣≤Cn−1/8.
因此
t∈RsupP(n1k=1∑nXk≤t)−Φ(t)=O(n−1/8).
题目:5.4.5
{Xn} 为独立同分布的随机变量列,
EX1=0,EX12=1,
且对所有 l≥3 均有
E∣X1∣l<∞.
令
Sn=X1+⋯+Xn.
令 Hk(x) 是 k 阶 Hermite 多项式,即满足
H0=1,(−1)kHk(x)ϕ(x)=ϕ(k)(x),
其中 ϕ 是标准正态分布的密度函数。求证:
n→∞limE[Hk(nSn)]=0,∀k≥1.
证明
记
Wn=nSn.
我们先证明:对任意固定的正整数 j,有
n→∞limEWnj=EZj,
其中 Z∼N(0,1)。
展开得
EWnj=n−j/2i1,…,ij=1∑nE(Xi1⋯Xij).
由于 EX1=0 且 Xi 独立,若某个指标只出现一次,则对应项期望为 0。
因此非零项中,每个出现的指标至少出现两次。若出现了 r 个不同指标,则
r≤2j.
当 r<j/2 时,这类项的总贡献至多为
O(nr)n−j/2=o(1).
所以极限只可能来自 r=j/2 的情形。这要求 j 为偶数,并且每个出现的指标恰好出现两次。设 j=2m,则这种配对方式共有
(2m−1)!!
种,且每一项的期望为
EX12⋯EXm2=1.
因此
n→∞limEWn2m=(2m−1)!!.
若 j 为奇数,则不存在 r=j/2 的情形,故
n→∞limEWnj=0.
这正是标准正态随机变量 Z 的各阶矩,因此
n→∞limEWnj=EZj.
由于 Hk(x) 是一个 k 次多项式,可写为
Hk(x)=j=0∑kajxj.
于是由上面的矩收敛,
n→∞limEHk(Wn)=j=0∑kajn→∞limEWnj=j=0∑kajEZj=EHk(Z).
最后计算 EHk(Z)。由 Z∼N(0,1),
EHk(Z)=∫−∞∞Hk(x)ϕ(x)dx.
根据 Hermite 多项式的定义,
Hk(x)ϕ(x)=(−1)kϕ(k)(x).
因此
EHk(Z)=(−1)k∫−∞∞ϕ(k)(x)dx.
当 k≥1 时,
∫−∞∞ϕ(k)(x)dx=ϕ(k−1)(∞)−ϕ(k−1)(−∞)=0.
故
EHk(Z)=0,k≥1.
从而
n→∞limE[Hk(nSn)]=0,∀k≥1.
题目:5.4.8
(Stein 方法)试证明
X∼N(0,1)
当且仅当对任意有界连续函数 g,若其导数 g′ 也有界连续,则总有
E[Xg(X)]=E[g′(X)].
提示:对标准正态分布 Z 和有界连续函数 h,构造一个新的函数
g0(x)=ex2/2∫−∞xe−y2/2(h(y)−Eh(Z))dy.
证明
先证必要性。若 X∼N(0,1),其密度为
ϕ(x)=2π1e−x2/2.
因为
ϕ′(x)=−xϕ(x),
所以
E[Xg(X)]=∫−∞∞xg(x)ϕ(x)dx=−∫−∞∞g(x)ϕ′(x)dx.
对右边分部积分,得
−∫−∞∞g(x)ϕ′(x)dx=−[g(x)ϕ(x)]−∞∞+∫−∞∞g′(x)ϕ(x)dx.
由于 g 有界且 ϕ(x)→0,边界项为 0。因此
E[Xg(X)]=E[g′(X)].
下面证充分性。设对任意有界连续 g,且 g′ 有界连续时,都有
E[Xg(X)]=E[g′(X)].
我们要证明 X∼N(0,1)。
令 Z∼N(0,1)。任取有界连续函数 h,定义
g0(x)=ex2/2∫−∞xe−y2/2(h(y)−Eh(Z))dy.
由于
∫−∞∞e−y2/2(h(y)−Eh(Z))dy=0,
也可写为
g0(x)=−ex2/2∫x∞e−y2/2(h(y)−Eh(Z))dy.
由标准正态尾部估计可知,g0 有界连续,且其导数也有界连续。
对 g0 求导:
g0′(x)=xex2/2∫−∞xe−y2/2(h(y)−Eh(Z))dy+h(x)−Eh(Z).
因此
g0′(x)=xg0(x)+h(x)−Eh(Z),
即
g0′(x)−xg0(x)=h(x)−Eh(Z).
由假设,将 g=g0 代入,得到
E[Xg0(X)]=E[g0′(X)].
因此
E[g0′(X)−Xg0(X)]=0.
由上面的 Stein 方程,
g0′(X)−Xg0(X)=h(X)−Eh(Z).
所以
Eh(X)−Eh(Z)=0.
即
Eh(X)=Eh(Z)
对任意有界连续函数 h 成立。
因此 X 与 Z 分布相同,即
X∼N(0,1).
综上,命题得证。
拓展:从 χ² 分布到 Wishart 分布
阅读路线
概率论里的分布已经够多了,再多两个也无妨。下面这条路径值得探究:
正态样本⟹正交分解⟹平方和 / 外积和.
一维时,沿着这条路走,我们得到了 χ2 分布,也解释了为什么 Xˉ 和 s2 独立。多维时,我们又会得到什么呢?
1. 一维情形:平方和少一个方向
先回顾一下课程讲义中的“边角料”。若
Z1,…,Zν∼iidN(0,1),
则
i=1∑νZi2∼χν2.
这就是标准正态向量在 Rν 中的长度平方。换句话说,χν2 可以看成 ν 个独立标准正态平方和,也可以看成一个随机半径的平方。
再回顾一下我们熟悉的正态样本结论。若
X1,…,Xn∼iidN(μ,σ2),s2=n−11i=1∑n(Xi−Xˉ)2,
则
Xˉ⊥⊥s2,σ2(n−1)s2∼χn−12.
这里的 n−1 不是凭空产生的:事实上,样本向量
(X1−μ,…,Xn−μ)
本来在 n 维空间里,但样本均值对应的是一个特殊方向:
span{(1,…,1)}.
减去 Xˉ 之后,残差向量
(X1−Xˉ,…,Xn−Xˉ)
和这个方向正交,所以只剩下 (n−1) 维空间。把残差向量的长度平方除以 σ2,得到的就是 χn−12。
这里用到两个正态分布的事实:第一,标准正态向量经过正交旋转后分布不变;第二,对正态向量来说,正交分量不仅不相关,而且独立。第二点是正态分布的独特性质。
所以 n−1 的几何来源很简单:估计均值占掉了样本空间里的一个方向。
2. p 维情形会怎样?
现在把每个观测从一个数换成一个 p 维向量(注:我们经常使用 p 表征维度,尤其是高维情形)。设
Y1,…,Yν∼iidNp(0,Σ).
在矩阵里,“平方”的自然版本不是 Yi2,而是外积
YiYi⊤.
于是平方和的矩阵版本就是
W=i=1∑νYiYi⊤.
我们记
W∼Wp(Σ,ν),
称它服从尺度矩阵为 Σ、自由度为 ν 的 Wishart 分布。
这个定义和 χν2 是同一想法。若 p=1,则 Yi 只是一个标量,且 Yi∼N(0,σ2)。此时
W=i=1∑νYi2=σ2i=1∑νZi2∼σ2χν2.
所以 Wishart 分布不过是 χ2 分布的推广。
例如 p=2 时,
W=(∑iYi12∑iYi1Yi2∑iYi1Yi2∑iYi22).
对角线记录每个方向上的平方和,非对角线记录两个方向之间的交叉项。χ2 只看长度;Wishart 还把方向之间的关系也记了下来。
3. 主定理:样本协方差矩阵服从 Wishart 分布
设
X1,…,Xn∼iidNp(μ,Σ),
并定义样本均值向量和样本协方差矩阵
Xˉ=n1i=1∑nXi,S=n−11i=1∑n(Xi−Xˉ)(Xi−Xˉ)⊤.
则
(n−1)S∼Wp(Σ,n−1),Xˉ⊥⊥S.
若 n−1<p,这个分布奇异:矩阵 (n−1)S 的秩至多为 n−1,因此不可能正定。上面的构造仍然成立,只是通常写在正定矩阵锥上的密度公式要等自由度足够大时才适用,一般要求 ν>p−1。
这正是一维结论
Xˉ⊥⊥s2,σ2(n−1)s2∼χn−12
的多维版本。一维情形,去掉样本均值后,残差平方和服从 χ2 分布;多维情形,去掉样本均值向量后,残差外积和服从 Wishart 分布。可按下表理解:
| 一维正态样本 |
多维正态样本 |
| 平方 (Xi−Xˉ)2 |
外积 (Xi−Xˉ)(Xi−Xˉ)⊤ |
| 平方和 |
外积和 |
| χn−12 |
Wp(Σ,n−1) |
| Xˉ⊥⊥s2 |
Xˉ⊥⊥S |
4. 证明:旋转样本空间
我们不从 Wishart 密度入手。密度当然有用,但第一次见 Wishart 就直接看密度,容易使人畏惧,我们把密度结果总结成了后面的remark。更佳的入口是正交分解。
把数据写成一个 n×p 矩阵
X=X1⊤⋮Xn⊤,1n=(1,…,1)⊤.
取一个 n×n 正交矩阵 H,使它的第一行为
n11n⊤.
定义标准化数据矩阵
Z=(X−1nμ⊤)Σ−1/2.
Z 的各行是独立的 Np(0,Ip) 随机向量。左乘正交矩阵只是在样本编号方向上做旋转,因此
U=HZ
仍然有独立的 Np(0,Ip) 行。记第 j 行为 uj⊤,其中 uj∈Rp。
第一行正好对应均值方向:
u1⊤=n11n⊤Z=n(Xˉ−μ)⊤Σ−1/2.
所以 u1 包含的就是 Xˉ 的信息。
剩下的 u2⊤,…,un⊤ 是残差方向。令
P0=n11n1n⊤,P1=In−P0.
这里 P0 是到均值方向的投影,P1 是到其正交补的投影。由于 H 的第一行是 1n⊤/n,
P1=H⊤(000In−1)H.
于是残差外积和可以写成
(n−1)S=(X−1nXˉ⊤)⊤(X−1nXˉ⊤)=X⊤P1X=(X−1nμ⊤)⊤P1(X−1nμ⊤)=Σ1/2Z⊤P1ZΣ1/2=Σ1/2(j=2∑nujuj⊤)Σ1/2=j=2∑n(Σ1/2uj)(Σ1/2uj)⊤.
第三行用到了 P11n=0:残差投影会把常数均值方向消掉。
最后一行就是 n−1 个独立 Np(0,Σ) 向量的外积和。因此
(n−1)S∼Wp(Σ,n−1).
另一方面,Xˉ 只依赖 u1,而 S 只依赖 u2,…,un。这些向量相互独立,所以
Xˉ⊥⊥S.
这其实已经把 Cochran 定理的核心证明写出来了。下面把它抽象成投影矩阵版本。
为什么自由度是 n-1,不是 n-p
减去 Xˉ 去掉的是样本编号空间中的一个方向,即 (1,…,1) 这个方向,而不是去掉 p 个方向。剩下的每个残差方向仍然是完整的 p 维向量。因此 Wishart 的自由度是 n−1。
5. Cochran 定理:投影以后仍是 Wishart
更一般的表述如下。前面我们只投影掉均值方向;Cochran 定理说,只要投影矩阵是对称幂等的,正态样本矩阵被它截出来的那部分仍然给出 Wishart 分布。
定理:Cochran 定理
设
z1,…,zm∼iidNp(0,Σ),Z=z1⊤⋮zm⊤.
若 P 是 m×m 对称幂等矩阵,r=rank(P),则
Z⊤PZ∼Wp(Σ,r),Z⊤(Im−P)Z∼Wp(Σ,m−r),
并且这两个随机矩阵相互独立。
更一般地,若 P1,…,Pk 是两两正交的对称幂等矩阵,且 ∑a=1kPa=Im,则
Z⊤PaZ∼Wp(Σ,rank(Pa)),a=1,…,k,
并且这些矩阵相互独立。
证明
只证一个投影 P 的情形,多个投影完全一样。由于 P 对称幂等,它就是到某个 r 维子空间的正交投影。因此存在正交矩阵 H,使得
P=H⊤(Ir000)H,Im−P=H⊤(000Im−r)H.
令 Y=HZ。左乘正交矩阵只是旋转样本编号方向,所以 Y 的行仍然独立同分布于 Np(0,Σ)。把 Y 按行分成
Y=(Y1Y2),Y1∈Rr×p,Y2∈R(m−r)×p.
于是
Z⊤PZ=Y1⊤Y1,Z⊤(Im−P)Z=Y2⊤Y2.
Y1 和 Y2 用的是互不相交的正态行,所以独立。按照 Wishart 分布的定义,Y1⊤Y1∼Wp(Σ,r),Y2⊤Y2∼Wp(Σ,m−r)。
在样本协方差矩阵的例子里,取
P=In−n11n1n⊤.
这是秩为 n−1 的投影矩阵,而且 P1n=0。所以
(n−1)S=X⊤PX=(X−1nμ⊤)⊤P(X−1nμ⊤)∼Wp(Σ,n−1).
这就是样本协方差矩阵服从 Wishart 分布的简洁证明。它比手工旋转样本空间更短,但背后的几何还是同一件事:投影先把样本编号空间切成几块,再把每一块里的正态行拿去做外积和。
6. 关于 Wishart 密度的注记
若 ν>p−1 且 W 正定,Wishart 密度为
f(W)=2νp/2∣Σ∣ν/2Γp(ν/2)∣W∣(ν−p−1)/2exp{−21tr(Σ−1W)},W>0,
其中多元 Gamma 函数为
Γp(a)=πp(p−1)/4j=1∏pΓ(a−2j−1).
第一次尝试理解 Wishart 时,看到上面的公式可能会凄凉值增加,它的推导需要在正定矩阵锥上做 Jacobian 计算,过于 technical 了,此处不表。
总结
一维正态样本中,投影去掉均值方向后,还剩 n−1 个独立的高斯残差方向;它们的长度平方给出 χn−12。Wishart 定理就是这句话的向量版本:平方变成外积,方差变成协方差矩阵,Xˉ⊥s2 变成 Xˉ⊥S。Cochran 定理则把“均值方向”换成任意正交投影,是这套论证的通用版本。
章末回看
- 本章原始题目和解答正文来自对应 TeX 分文件。
- 可先只看题目框,写出关键等式后再展开证明或解答。
- 若结论用到独立性、可列可加性、换元公式或矩条件,最好顺手标明。