第五次习题课

胡洁洋

目录
阅读地图
  • 本章进入收敛理论、强大数定律、特征函数、中心极限定理和 Stein 方法。
  • 四种收敛模式的强弱关系是阅读的坐标系:a.s.、Lp、P、D。
  • 证明中要特别跟踪是否用了独立性、矩条件、截断或 Borel-Cantelli。

提示 凡是出现极限分布,都先问:是依概率极限、分布极限,还是几乎处处极限?

习题4.2

旁注

四种收敛模式要分清:a.s.、LpL^p、P 和 D。看到箭头时先判断它是哪一种。

题目:4.2.1

证明如下两个不等式。

(1)(Lyapunov 不等式)对 0<r<s0<r<s,有

(E[Xr])1/r(E[Xs])1/s.\bigl(\mathbb{E}[|X|^r]\bigr)^{1/r} \leq \bigl(\mathbb{E}[|X|^s]\bigr)^{1/s}.

(2)(CrC_r 不等式)对 r>0r>0,有

E[X+Yr]Cr(E[Xr]+E[Yr]),\mathbb{E}[|X+Y|^r] \leq C_r\bigl(\mathbb{E}[|X|^r]+\mathbb{E}[|Y|^r]\bigr),

其中

Cr={1,0<r<1,2r1,r1.C_r= \begin{cases} 1, & 0<r<1,\\ 2^{r-1}, & r\geq 1. \end{cases}
证明

(1) 令 α=rs(0,1)\alpha=\frac{r}{s}\in(0,1)。由于函数 xxαx\mapsto x^\alpha[0,)[0,\infty) 上凹,故由 Jensen 不等式,

E[Xr]=E[(Xs)α](E[Xs])α.\mathbb{E}[|X|^r] = \mathbb{E}\bigl[(|X|^s)^\alpha\bigr] \leq \bigl(\mathbb{E}[|X|^s]\bigr)^\alpha.

两边取 1/r1/r 次方即得

(E[Xr])1/r(E[Xs])1/s.\bigl(\mathbb{E}[|X|^r]\bigr)^{1/r} \leq \bigl(\mathbb{E}[|X|^s]\bigr)^{1/s}.

220<r<10<r<1 时,对任意 a,b0a,b\geq 0

(a+b)rar+br,(a+b)^r \leq a^r+b^r,

因而

X+Yr(X+Y)rXr+Yr.|X+Y|^r \leq (|X|+|Y|)^r \leq |X|^r+|Y|^r.

取期望得

E[X+Yr]E[Xr]+E[Yr].\mathbb{E}[|X+Y|^r] \leq \mathbb{E}[|X|^r]+\mathbb{E}[|Y|^r].

r1r\geq 1 时,对任意 a,b0a,b\geq 0,由凸性或 Jensen 不等式可得

(a+b)r=2r(a+b2)r2r1(ar+br).(a+b)^r = 2^r\left(\frac{a+b}{2}\right)^r \leq 2^{r-1}(a^r+b^r).

因此

X+Yr2r1(Xr+Yr),|X+Y|^r \leq 2^{r-1}\bigl(|X|^r+|Y|^r\bigr),

再取期望即得结论。

题目:4.2.2

已知 {Xn}\{X_n\} 为随机变量列,实数列 {cn}\{c_n\} 收敛于常数 cc。在几乎处处收敛、LpL^p 收敛、依概率收敛和依分布收敛意义下分别证明

XnXcnXncX.X_n \to X \Longrightarrow c_n X_n \to cX.
证明

Xna.s.XX_n\xrightarrow{\text{a.s.}}X,则对几乎处处的 ω\omega,有

cnXn(ω)cX(ω),c_nX_n(\omega)\to cX(\omega),

cnXna.s.cXc_nX_n\xrightarrow{\text{a.s.}}cX

XnLpXX_n\xrightarrow{L^p}X,则 XLpX\in L^p,且 {cn}\{c_n\} 有界。由前面的 CrC_r 不等式,存在只依赖于 pp 的常数 Cp>0C_p>0,使得

cnXncXpCp(cnpXnXp+cncpXp).|c_nX_n-cX|^p \leq C_p\bigl(|c_n|^p|X_n-X|^p+|c_n-c|^p|X|^p\bigr).

两边取期望,便得

E[cnXncXp]0,\mathbb{E}[|c_nX_n-cX|^p]\to 0,

cnXnLpcXc_nX_n\xrightarrow{L^p}cX

XnPXX_n\xrightarrow{P}X,则

cnXncX=cn(XnX)+(cnc)X.c_nX_n-cX=c_n(X_n-X)+(c_n-c)X.

由于 {cn}\{c_n\} 有界,第一项依概率收敛于 00;第二项因 cnc0c_n-c\to 0 为常数,故 a.s. 收敛于 00,从而也依概率收敛于 00。因此

cnXnPcX.c_nX_n\xrightarrow{P}cX.

XnDXX_n\xrightarrow{D}X,则把 cnc_n 看成常值随机变量,有 cnPcc_n\xrightarrow{P}c。由后面的 Slutsky 定理可得

cnXnDcX.c_nX_n\xrightarrow{D}cX.
题目:4.2.3

证明当 nn\to\infty 时,

XnP0E ⁣[Xn1+Xn]0.X_n \xrightarrow{P} 0 \quad\Longleftrightarrow\quad \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0.
证明

XnP0X_n \xrightarrow{P} 0,则对任意 ε>0\varepsilon>0,

E ⁣[Xn1+Xn]=E ⁣[Xn1+Xn;Xn<ε]+E ⁣[Xn1+Xn;Xnε]ε+P(Xnε).\begin{aligned} \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right] &= \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|<\varepsilon\right] + \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|\geq \varepsilon\right] \\ &\leq \varepsilon + \mathbb{P}(|X_n|\geq \varepsilon). \end{aligned}

nn\to\infty 后得

lim supnE ⁣[Xn1+Xn]ε.\limsup_{n\to\infty}\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\leq \varepsilon.

再令 ε0\varepsilon\downarrow 0,便知

E ⁣[Xn1+Xn]0.\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0.

反过来,若

E ⁣[Xn1+Xn]0,\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0,

则对任意 ε>0\varepsilon>0,

E ⁣[Xn1+Xn]E ⁣[Xn1+Xn;Xnε]ε1+εP(Xnε).\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right] \geq \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|\geq \varepsilon\right] \geq \frac{\varepsilon}{1+\varepsilon}\mathbb{P}(|X_n|\geq \varepsilon).

因而 P(Xnε)0\mathbb{P}(|X_n|\geq \varepsilon)\to 0,即 XnP0X_n\xrightarrow{P}0

题目:4.2.4

随机变量列 {Xn}\{X_n\}{Yn}\{Y_n\} 满足 XnDXX_n \xrightarrow{D} XYnPcY_n \xrightarrow{P} c,其中 XX 是随机变量,cc 为常数。证明

11 Xn+YnDX+cX_n+Y_n \xrightarrow{D} X+c.

22 XnYnDcXX_nY_n \xrightarrow{D} cX,且当 c0c\neq 0 时有

XnYnDXc.\frac{X_n}{Y_n} \xrightarrow{D} \frac{X}{c}.
证明

(1) 与 (2) 的前半部分正是下述 Slutsky 定理在 Zn0Z_n\equiv 0 时的结论,因此

Xn+YnDX+c,XnYnDcX.X_n+Y_n\xrightarrow{D}X+c,\qquad X_nY_n\xrightarrow{D}cX.

c0c\neq 0 时,由函数 x1/xx\mapsto 1/xcc 处连续可得

1YnP1c.\frac{1}{Y_n}\xrightarrow{P}\frac{1}{c}.

再对随机变量列 {Xn}\{X_n\}{1/Yn}\{1/Y_n\} 应用 Slutsky 定理,得到

XnYn=Xn1YnDXc.\frac{X_n}{Y_n}=X_n\cdot \frac{1}{Y_n}\xrightarrow{D}\frac{X}{c}.

  设随机变量列 {Xn}\{X_n\}{Yn}\{Y_n\}{Zn}\{Z_n\} 满足

XnDX,YnPb,ZnPc,X_n\xrightarrow{D}X,\qquad Y_n\xrightarrow{P}b,\qquad Z_n\xrightarrow{P}c,

其中 XX 为随机变量,b,cb,c 为常数,则

XnYn+ZnDbX+c.X_nY_n+Z_n\xrightarrow{D}bX+c.

特别地,

Xn+YnDX+c,XnYnDbX,X_n+Y_n\xrightarrow{D}X+c,\qquad X_nY_n\xrightarrow{D}bX,

且当 b0b\neq 0 时,

XnYnDXb.\frac{X_n}{Y_n}\xrightarrow{D}\frac{X}{b}.
证明

先证一个常用引理:若

UnVnP0,VnDV,U_n-V_n\xrightarrow{P}0,\qquad V_n\xrightarrow{D}V,

UnDVU_n\xrightarrow{D}V

事实上,对任意 ε>0\varepsilon>0VV 的任一分布函数连续点 xx,有

{Vnxε}{UnVnε}{Unx}\{V_n\leq x-\varepsilon\}\cap\{|U_n-V_n|\leq \varepsilon\}\subset \{U_n\leq x\}

{Unx}{Vnx+ε}{UnVn>ε}.\{U_n\leq x\}\subset \{V_n\leq x+\varepsilon\}\cup \{|U_n-V_n|>\varepsilon\}.

因此

P(Vnxε)P(UnVn>ε)P(Unx)\mathbb{P}(V_n\leq x-\varepsilon)-\mathbb{P}(|U_n-V_n|>\varepsilon) \leq \mathbb{P}(U_n\leq x)

以及

P(Unx)P(Vnx+ε)+P(UnVn>ε).\mathbb{P}(U_n\leq x) \leq \mathbb{P}(V_n\leq x+\varepsilon)+\mathbb{P}(|U_n-V_n|>\varepsilon).

nn\to\infty,得到

FV(xε)lim infnP(Unx)lim supnP(Unx)FV(x+ε).F_V(x-\varepsilon)\leq \liminf_{n\to\infty}\mathbb{P}(U_n\leq x) \leq \limsup_{n\to\infty}\mathbb{P}(U_n\leq x)\leq F_V(x+\varepsilon).

再令 ε0\varepsilon\downarrow 0,由 xx 的连续性可知

P(Unx)FV(x),\mathbb{P}(U_n\leq x)\to F_V(x),

UnDVU_n\xrightarrow{D}V

下面证明 Slutsky 定理。先看加法。由连续映射定理,

Xn+cDX+c.X_n+c\xrightarrow{D}X+c.

又因为

(Xn+Yn)(Xn+c)=YncP0,(X_n+Y_n)-(X_n+c)=Y_n-c\xrightarrow{P}0,

由上面的引理立得

Xn+YnDX+c.X_n+Y_n\xrightarrow{D}X+c.

再看乘法。由 XnDXX_n\xrightarrow{D}X 可知 {Xn}\{X_n\} 是紧的。于是对任意 ε,η>0\varepsilon,\eta>0,可取 M>0M>0 使得对充分大的 nn,

P(Xn>M)<η.\mathbb{P}(|X_n|>M)<\eta.

从而

P(Xn(Ynb)>ε)P(Xn>M)+P ⁣(Ynb>εM).\mathbb{P}\bigl(|X_n(Y_n-b)|>\varepsilon\bigr) \leq \mathbb{P}(|X_n|>M)+\mathbb{P}\!\left(|Y_n-b|>\frac{\varepsilon}{M}\right).

nn\to\infty

Xn(Ynb)P0.X_n(Y_n-b)\xrightarrow{P}0.

另一方面,由连续映射定理,

bXnDbX.bX_n\xrightarrow{D}bX.

XnYnbXn=Xn(Ynb)P0,X_nY_n-bX_n=X_n(Y_n-b)\xrightarrow{P}0,

故再由引理,

XnYnDbX.X_nY_n\xrightarrow{D}bX.

最后,由 XnYnDbXX_nY_n\xrightarrow{D}bX 以及 ZnPcZ_n\xrightarrow{P}c,将刚证明的加法情形应用于 {XnYn}\{X_nY_n\}{Zn}\{Z_n\},便得

XnYn+ZnDbX+c.X_nY_n+Z_n\xrightarrow{D}bX+c.

b0b\neq 0,则函数 x1/xx\mapsto 1/xbb 处连续,所以

1YnP1b.\frac{1}{Y_n}\xrightarrow{P}\frac{1}{b}.

再将上面的乘法结论应用于 XnX_n1/Yn1/Y_n,便得到

XnYn=Xn1YnDXb.\frac{X_n}{Y_n}=X_n\cdot \frac{1}{Y_n}\xrightarrow{D}\frac{X}{b}.

习题4.3

旁注

Borel-Cantelli、子列原理和极值估计常一起出现。几乎处处结论通常要构造可求和的坏事件。

题目:4.3.1

{Xn}\{X_n\} 相互独立且服从标准正态分布,利用第 3 章问题第 14 题 (1) 的结论证明

P ⁣(lim supnXnlogn=2)=1.\mathbb{P}\!\left(\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}=\sqrt{2}\right)=1.
证明

对任意 a>0a>0,记

An(a)={Xn2alogn}.A_n(a)=\left\{X_n\geq \sqrt{2a\log n}\right\}.

由第 3 章问题第 14 题 (1) 的标准正态尾概率估计,存在正常数 C1,C2C_1,C_2,使得对充分大的 nn,

C1nalognP(An(a))C2nalogn.C_1\frac{n^{-a}}{\sqrt{\log n}} \leq \mathbb{P}(A_n(a)) \leq C_2\frac{n^{-a}}{\sqrt{\log n}}.

0<a<10<a<1,则

n=2P(An(a))=.\sum_{n=2}^\infty \mathbb{P}(A_n(a))=\infty.

由于 {An(a)}\{A_n(a)\} 相互独立,第二 Borel-Cantelli 引理给出

P(An(a) i.o.)=1.\mathbb{P}(A_n(a)\ \text{i.o.})=1.

这说明

lim supnXnlogn2aa.s.\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}\geq \sqrt{2a} \qquad \text{a.s.}

a>1a>1,则

n=2P(An(a))<,\sum_{n=2}^\infty \mathbb{P}(A_n(a))<\infty,

故由第一 Borel-Cantelli 引理,

P(An(a) i.o.)=0,\mathbb{P}(A_n(a)\ \text{i.o.})=0,

lim supnXnlogn2aa.s.\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}\leq \sqrt{2a} \qquad \text{a.s.}

因此对任意 0<a<1<b0<a<1<b,几乎处处都有

2alim supnXnlogn2b.\sqrt{2a} \leq \limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}} \leq \sqrt{2b}.

a1a\uparrow 1b1b\downarrow 1,便得

lim supnXnlogn=2a.s.\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}=\sqrt{2} \qquad \text{a.s.}
题目:4.3.6

设随机变量 X1,,XnX_1,\cdots,X_n 独立同分布,且服从 [0,a][0,a] 上的均匀分布,其中 a>0a>0。记

Mn=max{X1,,Xn},M_n=\max\{X_1,\cdots,X_n\},

分别在 a.s.、pp 阶收敛的意义下证明当 nn\to\inftyMnaM_n\to a

证明

对任意 0<ε<a0<\varepsilon<a,有

P(Mna>ε)=P(Mn<aε)=(aεa)n.\mathbb{P}(|M_n-a|>\varepsilon) =\mathbb{P}(M_n<a-\varepsilon) =\left(\frac{a-\varepsilon}{a}\right)^n.

因为

n=1(aεa)n<,\sum_{n=1}^\infty \left(\frac{a-\varepsilon}{a}\right)^n<\infty,

由第一 Borel-Cantelli 引理可知

Mna>ε|M_n-a|>\varepsilon

只会发生有限次。对有理数 ε>0\varepsilon>0 取可数交,即得

Mna.s.a.M_n\xrightarrow{\text{a.s.}} a.

又因为 0Mna0\leq M_n\leq a,故

Mnapap.|M_n-a|^p\leq a^p.

结合 Mna.s.aM_n\xrightarrow{\text{a.s.}}a,由 DCT 可得

E[Mnap]0.\mathbb{E}[|M_n-a|^p]\to 0.

因而

MnLpa.M_n\xrightarrow{L^p} a.
题目:4.3.7

随机变量列 {Xn}\{X_n\} 满足 XnPXX_n \xrightarrow{P} X。证明存在子列 {Xnk}\{X_{n_k}\} 满足

Xnka.s.X.X_{n_k} \xrightarrow{\text{a.s.}} X.
证明

由于 XnPXX_n\xrightarrow{P}X,对每个 kNk\in\mathbb{N}^* 都可取 nk>nk1n_k>n_{k-1},使得

P(XnkX>2k)<2k.\mathbb{P}\bigl(|X_{n_k}-X|>2^{-k}\bigr)<2^{-k}.

于是

k=1P(XnkX>2k)<.\sum_{k=1}^\infty \mathbb{P}\bigl(|X_{n_k}-X|>2^{-k}\bigr)<\infty.

由第一 Borel-Cantelli 引理,事件

XnkX>2k|X_{n_k}-X|>2^{-k}

只会发生有限次。故几乎处处存在 K(ω)K(\omega),使得当 kK(ω)k\geq K(\omega) 时,

Xnk(ω)X(ω)2k.|X_{n_k}(\omega)-X(\omega)|\leq 2^{-k}.

于是 Xnk(ω)X(ω)X_{n_k}(\omega)\to X(\omega),即

Xnka.s.X.X_{n_k}\xrightarrow{\text{a.s.}}X.
题目:4.3.8

11{Xn}\{X_n\} 是相互独立的实值随机变量列且满足 XnP0X_n \xrightarrow{P} 0{an}\{a_n\} 为单调递增至 ++\infty 的正实数列。问

Xnana.s.0\frac{X_n}{a_n} \xrightarrow{\text{a.s.}} 0

是否成立?

22{Xn}\{X_n\} 是实值随机变量列,试构造正实数列 {cn}\{c_n\},使得

Xncna.s.0.\frac{X_n}{c_n} \xrightarrow{\text{a.s.}} 0.
证明

(1) 结论不一定成立。对给定的 {an}\{a_n\},定义独立随机变量

P(Xn=an)=1n+1,P(Xn=0)=11n+1.\mathbb{P}(X_n=a_n)=\frac{1}{n+1},\qquad \mathbb{P}(X_n=0)=1-\frac{1}{n+1}.

由于 ana_n\to\infty,对任意 ε>0\varepsilon>0,当 nn 充分大时 an>εa_n>\varepsilon,故

P(Xn>ε)=1n+10,\mathbb{P}(|X_n|>\varepsilon)=\frac{1}{n+1}\to 0,

XnP0X_n\xrightarrow{P}0。但是

P ⁣(Xnan=1)=1n+1,n=11n+1=.\mathbb{P}\!\left(\frac{X_n}{a_n}=1\right)=\frac{1}{n+1}, \qquad \sum_{n=1}^\infty \frac{1}{n+1}=\infty.

由第二 Borel-Cantelli 引理,

Xnan=1\frac{X_n}{a_n}=1

会发生无穷多次,故 Xnan\frac{X_n}{a_n} 不 a.s. 收敛于 00

22 对每个 nn,由 P(Xn>t)0 (t)\mathbb{P}(|X_n|>t)\downarrow 0\ (t\to\infty),可取 cn>0c_n>0 使得

P(Xn>2ncn)<2n.\mathbb{P}(|X_n|>2^{-n}c_n)<2^{-n}.

An={Xn>2ncn}.A_n=\{|X_n|>2^{-n}c_n\}.

n=1P(An)<.\sum_{n=1}^\infty \mathbb{P}(A_n)<\infty.

由第一 Borel-Cantelli 引理,AnA_n 只会发生有限次。故几乎处处存在 N(ω)N(\omega),使得当 nN(ω)n\geq N(\omega) 时,

Xncn2n.\left|\frac{X_n}{c_n}\right|\leq 2^{-n}.

因此

Xncna.s.0.\frac{X_n}{c_n}\xrightarrow{\text{a.s.}}0.

习题4.4

旁注

强大数定律的证明常靠截断、四阶矩或 Borel-Cantelli。注意矩条件分别控制哪些尾事件。

题目:4.4.1

{Xn}\{X_n\} 为非负独立同分布随机变量列,E[X1]=+\mathbb{E}[X_1]=+\infty,证明

1nk=1nXka.s.+.\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} +\infty.
证明

对每个 M>0M>0,令

Yk(M)=XkM.Y_k^{(M)}=X_k\wedge M.

{Yk(M)}\{Y_k^{(M)}\} 仍是非负独立同分布随机变量列,且 E[Y1(M)]<\mathbb{E}[Y_1^{(M)}]<\infty。由强大数定律,

1nk=1nYk(M)a.s.E[Y1(M)].\frac{1}{n}\sum_{k=1}^n Y_k^{(M)} \xrightarrow{\text{a.s.}} \mathbb{E}[Y_1^{(M)}].

又因 XkYk(M)X_k\geq Y_k^{(M)},故

lim infn1nk=1nXklimn1nk=1nYk(M)=E[Y1(M)]a.s.\liminf_{n\to\infty}\frac{1}{n}\sum_{k=1}^n X_k \geq \lim_{n\to\infty}\frac{1}{n}\sum_{k=1}^n Y_k^{(M)} = \mathbb{E}[Y_1^{(M)}] \qquad \text{a.s.}

由于 Y1(M)X1Y_1^{(M)}\uparrow X_1,由 MCT,

E[Y1(M)]E[X1]=+.\mathbb{E}[Y_1^{(M)}]\uparrow \mathbb{E}[X_1]=+\infty.

因而对任意 L>0L>0,可取 MM 充分大使得 E[Y1(M)]L\mathbb{E}[Y_1^{(M)}]\geq L。于是

lim infn1nk=1nXkLa.s.\liminf_{n\to\infty}\frac{1}{n}\sum_{k=1}^n X_k \geq L \qquad \text{a.s.}

由于 LL 任意,得到

1nk=1nXka.s.+.\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} +\infty.
题目:4.4.2

(Weierstrass 逼近定理)任给连续函数 f:[0,1]Rf:[0,1]\to\mathbb{R},随机变量 SnS_n 服从二项分布 B(n,x)B(n,x),证明

limn+sup0x1f(x)k=0nf ⁣(kn)(nk)xk(1x)nk=0.\lim_{n\to+\infty}\sup_{0\leq x\leq 1}\left|f(x)-\sum_{k=0}^n f\!\left(\frac{k}{n}\right)\binom{n}{k}x^k(1-x)^{n-k}\right|=0.
证明

对固定的 x[0,1]x\in[0,1],令 SnB(n,x)S_n\sim B(n,x)。则

P(Sn=k)=(nk)xk(1x)nk,\mathbb{P}(S_n=k)=\binom{n}{k}x^k(1-x)^{n-k},

因而

k=0nf ⁣(kn)(nk)xk(1x)nk=E ⁣[f ⁣(Snn)].\sum_{k=0}^n f\!\left(\frac{k}{n}\right)\binom{n}{k}x^k(1-x)^{n-k} =\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right].

于是只需证明

sup0x1E ⁣[f ⁣(Snn)]f(x)0.\sup_{0\leq x\leq 1}\left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right|\to 0.

由于 ff[0,1][0,1] 上连续,故一致连续。任给 ε>0\varepsilon>0,存在 δ>0\delta>0,使得当 uv<δ|u-v|<\delta 时,

f(u)f(v)<ε.|f(u)-f(v)|<\varepsilon.

M=sup0y1f(y)M=\sup_{0\leq y\leq 1}|f(y)|。则

E ⁣[f ⁣(Snn)]f(x)E ⁣[f ⁣(Snn)f(x);Snnx<δ]+E ⁣[f ⁣(Snn)f(x);Snnxδ]ε+2MP ⁣(Snnxδ).\begin{aligned} \left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right| &\leq \mathbb{E}\!\left[\left|f\!\left(\frac{S_n}{n}\right)-f(x)\right|;\left|\frac{S_n}{n}-x\right|<\delta\right] \\ &\quad + \mathbb{E}\!\left[\left|f\!\left(\frac{S_n}{n}\right)-f(x)\right|;\left|\frac{S_n}{n}-x\right|\geq\delta\right] \\ &\leq \varepsilon + 2M\,\mathbb{P}\!\left(\left|\frac{S_n}{n}-x\right|\geq \delta\right). \end{aligned}

由 Chebyshev 不等式,

P ⁣(Snnxδ)Var(Sn/n)δ2=x(1x)nδ214nδ2.\mathbb{P}\!\left(\left|\frac{S_n}{n}-x\right|\geq \delta\right) \leq \frac{\operatorname{Var}(S_n/n)}{\delta^2} = \frac{x(1-x)}{n\delta^2} \leq \frac{1}{4n\delta^2}.

因而

sup0x1E ⁣[f ⁣(Snn)]f(x)ε+M2nδ2.\sup_{0\leq x\leq 1}\left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right| \leq \varepsilon + \frac{M}{2n\delta^2}.

nn\to\infty 后再令 ε0\varepsilon\downarrow 0,即得结论。

题目:4.4.3

随机变量 X1,,XnX_1,\cdots,X_n 独立同分布,满足 E[X1]=0\mathbb{E}[X_1]=0E[X14]<\mathbb{E}[X_1^4]<\infty。不利用强大数定律的结论,直接证明

1nk=1nXka.s.0.\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} 0.
证明

Sn=k=1nXk.S_n=\sum_{k=1}^n X_k.

由于 E[X1]=0\mathbb{E}[X_1]=0,由独立性展开四阶矩可得

E[Sn4]=nE[X14]+6(n2)(E[X12])2=O(n2).\mathbb{E}[S_n^4] = n\mathbb{E}[X_1^4] + 6\binom{n}{2}\bigl(\mathbb{E}[X_1^2]\bigr)^2 = O(n^2).

因而存在常数 C>0C>0,使得对所有 nn,

E[Sn4]Cn2.\mathbb{E}[S_n^4]\leq Cn^2.

由 Markov 不等式,

P(Sn>nε)E[Sn4]n4ε4Cn2ε4.\mathbb{P}\bigl(|S_n|>n\varepsilon\bigr) \leq \frac{\mathbb{E}[S_n^4]}{n^4\varepsilon^4} \leq \frac{C}{n^2\varepsilon^4}.

所以

n=1P(Sn>nε)<.\sum_{n=1}^\infty \mathbb{P}\bigl(|S_n|>n\varepsilon\bigr)<\infty.

由第一 Borel-Cantelli 引理,

P(Sn>nε i.o.)=0.\mathbb{P}\bigl(|S_n|>n\varepsilon\ \text{i.o.}\bigr)=0.

由于 ε>0\varepsilon>0 任意,得到

Snna.s.0.\frac{S_n}{n}\xrightarrow{\text{a.s.}}0.
题目:4.4.4

{Xn}\{X_n\} 相互独立且服从参数为 11 的指数分布。

11 证明 (X1Xn)1/n(X_1\cdots X_n)^{1/n} 几乎处处收敛,并求出收敛值。

22 探索

n1X1++1Xn\frac{n}{\frac{1}{X_1}+\cdots+\frac{1}{X_n}}

的极限分布。

证明

(1) 令 Yn=logXnY_n=\log X_n。由于 XnExp(1)X_n\sim \mathrm{Exp}(1),有

E[Y1]<,E[Y1]=0(logx)exdx=γ,\mathbb{E}[|Y_1|]<\infty, \qquad \mathbb{E}[Y_1]=\int_0^\infty (\log x)e^{-x}\,dx=-\gamma,

其中 γ\gamma 为 Euler 常数。由强大数定律,

1nk=1nYka.s.γ.\frac{1}{n}\sum_{k=1}^n Y_k \xrightarrow{\text{a.s.}} -\gamma.

因而

(X1Xn)1/n=exp ⁣(1nk=1nYk)a.s.eγ.(X_1\cdots X_n)^{1/n} =\exp\!\left(\frac{1}{n}\sum_{k=1}^n Y_k\right) \xrightarrow{\text{a.s.}} e^{-\gamma}.

22

Zk=1Xk.Z_k=\frac{1}{X_k}.

Zk0Z_k\geq 0{Zk}\{Z_k\} 独立同分布。又

E[Z1]=01xexdx=+.\mathbb{E}[Z_1]=\int_0^\infty \frac{1}{x}e^{-x}\,dx=+\infty.

由上一题结论,

1nk=1nZka.s.+.\frac{1}{n}\sum_{k=1}^n Z_k \xrightarrow{\text{a.s.}} +\infty.

于是

n1X1++1Xn=(1nk=1nZk)1a.s.0.\frac{n}{\frac{1}{X_1}+\cdots+\frac{1}{X_n}} =\left(\frac{1}{n}\sum_{k=1}^n Z_k\right)^{-1} \xrightarrow{\text{a.s.}} 0.

因而它的极限分布为退化分布 δ0\delta_0

题目:4.4.5

区间 [0,1][0,1] 被划分成 nn 个互不相交的子区间之并,子区间长度分别为 p1,p2,,pnp_1,p_2,\cdots,p_n,定义该划分的熵为

h=i=1npilogpi.h=-\sum_{i=1}^n p_i\log p_i.

X1,X2,,XmX_1,X_2,\cdots,X_m 是相互独立且均服从 [0,1][0,1] 上均匀分布的随机变量,定义 Zm(i)Z_m(i)X1,,XmX_1,\cdots,X_m 中位于第 ii 个区间的总数,

Rm=i=1npiZm(i).R_m=\prod_{i=1}^n p_i^{Z_m(i)}.

证明当 mm\to\infty 时,

logRmma.s.h.\frac{\log R_m}{m}\xrightarrow{\text{a.s.}}-h.
证明

对每个 kk,定义

Yk=i=1n(logpi)1{Xk 落在第 i 个区间}.Y_k=\sum_{i=1}^n (\log p_i)\mathbf{1}_{\{X_k\text{ 落在第 }i\text{ 个区间}\}}.

{Yk}\{Y_k\} 独立同分布,且

P(Yk=logpi)=pi,1in.\mathbb{P}(Y_k=\log p_i)=p_i,\qquad 1\leq i\leq n.

于是

E[Y1]=i=1npilogpi=h.\mathbb{E}[Y_1]=\sum_{i=1}^n p_i\log p_i=-h.

另一方面,

logRm=i=1nZm(i)logpi=k=1mYk.\log R_m=\sum_{i=1}^n Z_m(i)\log p_i=\sum_{k=1}^m Y_k.

由强大数定律,

logRmm=1mk=1mYka.s.E[Y1]=h.\frac{\log R_m}{m} =\frac{1}{m}\sum_{k=1}^m Y_k \xrightarrow{\text{a.s.}} \mathbb{E}[Y_1] =-h.
题目:4.4.7

随机变量列 {Xk:k2}\{X_k:k\geq 2\} 相互独立且满足

P(Xk=2k)=P(Xk=2k)=12klogk,P(Xk=0)=11klogk.\mathbb{P}(X_k=2k)=\mathbb{P}(X_k=-2k)=\frac{1}{2k\log k}, \qquad \mathbb{P}(X_k=0)=1-\frac{1}{k\log k}.

Sn=X2++Xn,S_n=X_2+\cdots+X_n,

证明

SnnP0,Snn(n1)a.s.0,\frac{S_n}{n}\xrightarrow{P}0, \qquad \frac{S_n}{n(n-1)}\xrightarrow{\text{a.s.}}0,

Snn\frac{S_n}{n}

不 a.s. 收敛于 00

证明

先注意到

E[Xk]=0,\mathbb{E}[X_k]=0,

E[Xk2]=4k21klogk+11klogkCklogk.\mathbb{E}[X_k^2] =4k^2\cdot \frac{1}{k\log k}+1-\frac{1}{k\log k} \leq C\frac{k}{\log k}.

因此

Var ⁣(Snn)=1n2k=2nE[Xk2].\operatorname{Var}\!\left(\frac{S_n}{n}\right) =\frac{1}{n^2}\sum_{k=2}^n \mathbb{E}[X_k^2].

又有

k=2nklogkknklog2+k>n2klogn=O ⁣(n2logn),\sum_{k=2}^n \frac{k}{\log k} \leq \sum_{k\leq \sqrt n}\frac{k}{\log 2} +\sum_{k>\sqrt n}\frac{2k}{\log n} =O\!\left(\frac{n^2}{\log n}\right),

Var ⁣(Snn)=O ⁣(1logn)0.\operatorname{Var}\!\left(\frac{S_n}{n}\right)=O\!\left(\frac{1}{\log n}\right)\to 0.

由 Chebyshev 不等式,

SnnP0.\frac{S_n}{n}\xrightarrow{P}0.

再看几乎处处收敛。由上面的估计,

Var(Sn)=k=2nE[Xk2]=O ⁣(n2logn).\operatorname{Var}(S_n)=\sum_{k=2}^n \mathbb{E}[X_k^2] =O\!\left(\frac{n^2}{\log n}\right).

故对任意 ε>0\varepsilon>0,由 Chebyshev 不等式,

P ⁣(Snn(n1)>ε)Var(Sn)ε2n2(n1)2=O ⁣(1n2logn).\mathbb{P}\!\left(\left|\frac{S_n}{n(n-1)}\right|>\varepsilon\right) \leq \frac{\operatorname{Var}(S_n)}{\varepsilon^2n^2(n-1)^2} =O\!\left(\frac{1}{n^2\log n}\right).

因而

n=2P ⁣(Snn(n1)>ε)<.\sum_{n=2}^\infty \mathbb{P}\!\left(\left|\frac{S_n}{n(n-1)}\right|>\varepsilon\right)<\infty.

由第一 Borel-Cantelli 引理,

Snn(n1)a.s.0.\frac{S_n}{n(n-1)}\xrightarrow{\text{a.s.}}0.

最后证明 Snn\frac{S_n}{n} 不 a.s. 收敛于 00。记

An={Xn=2n}.A_n=\{X_n=2n\}.

{An}\{A_n\} 相互独立,且

n=2P(An)=n=212nlogn=.\sum_{n=2}^\infty \mathbb{P}(A_n) =\sum_{n=2}^\infty \frac{1}{2n\log n} =\infty.

由第二 Borel-Cantelli 引理,AnA_n a.s. 无穷多次发生。若假设

Snna.s.0,\frac{S_n}{n}\xrightarrow{\text{a.s.}}0,

Sn1n=n1nSn1n1a.s.0.\frac{S_{n-1}}{n}=\frac{n-1}{n}\cdot \frac{S_{n-1}}{n-1}\xrightarrow{\text{a.s.}}0.

但在 AnA_n 上,

Snn=Sn1n+2.\frac{S_n}{n}=\frac{S_{n-1}}{n}+2.

由于 AnA_n 无穷多次发生,这与 Snn0\frac{S_n}{n}\to 0 矛盾。故

Snn\frac{S_n}{n}

不 a.s. 收敛于 00

习题5.1

旁注

特征函数里,独立和对应乘积,线性变换对应缩放,分布收敛可由逐点收敛刻画。

题目:5.1.1

随机变量 XX 的密度

f(x)=12ex,<x<,f(x)=\frac{1}{2}e^{-|x|}, \qquad -\infty<x<\infty,

XX 的特征函数。

证明
ϕX(t)=E[eitX]=12eitxxdx=0excos(tx)dx=11+t2.\begin{aligned} \phi_X(t) &= \mathbb{E}[e^{itX}] = \frac12\int_{-\infty}^\infty e^{itx-|x|}\,dx \\ &= \int_0^\infty e^{-x}\cos(tx)\,dx = \frac{1}{1+t^2}. \end{aligned}
题目:5.1.2

已知 {U,V}\{U,V\}{X,Y}\{X,Y\} 独立,令

Z=UX+VYU2+V2.Z=\frac{UX+VY}{\sqrt{U^2+V^2}}.

证明若 XXYY 独立且均服从 N(0,1)N(0,1),则 ZN(0,1)Z\sim N(0,1)。若 (X,Y)(X,Y) 服从标准二元正态分布,上述结论是否成立?

证明

X,YX,Y 独立且都服从 N(0,1)N(0,1),则对任意固定的 (u,v)R2(u,v)\in\mathbb{R}^2

uX+vYN(0,u2+v2).uX+vY\sim N(0,u^2+v^2).

因此在 (U,V)=(u,v)(U,V)=(u,v) 条件下,

Z(U,V)=(u,v)N(0,1).Z\mid (U,V)=(u,v)\sim N(0,1).

也就是说,对任意 tRt\in\mathbb{R},

E ⁣[eitZU,V]=et2/2.\mathbb{E}\!\left[e^{itZ}\mid U,V\right]=e^{-t^2/2}.

再取期望,得到

E[eitZ]=et2/2,\mathbb{E}[e^{itZ}]=e^{-t^2/2},

ZN(0,1)Z\sim N(0,1)

(X,Y)(X,Y) 只服从标准二元正态分布而不要求独立,则结论一般不成立。设

Cov(X,Y)=ρ0,\operatorname{Cov}(X,Y)=\rho\neq 0,

并取 U=V=1U=V=1(常数),则

Z=X+Y2.Z=\frac{X+Y}{\sqrt{2}}.

于是

Var(Z)=12Var(X+Y)=12(1+1+2ρ)=1+ρ1.\operatorname{Var}(Z)=\frac{1}{2}\operatorname{Var}(X+Y)=\frac{1}{2}(1+1+2\rho)=1+\rho\neq 1.

所以此时 Z≁N(0,1)Z\not\sim N(0,1)。因此一般情形下结论不成立。

题目:5.1.3

ϕ(t)=(sintt)2.\phi(t)=\left(\frac{\sin t}{t}\right)^2.

试用概率方法证明对实数 t1,,tnt_1,\cdots,t_n,矩阵

Hn=(ϕ(titj))i,j=1nH_n=\bigl(\phi(t_i-t_j)\bigr)_{i,j=1}^n

非负定。

证明

取独立同分布随机变量 X,YU[1,1]X,Y\sim U[-1,1]。则

ϕX(t)=ϕY(t)=sintt.\phi_X(t)=\phi_Y(t)=\frac{\sin t}{t}.

因而

ϕX+Y(t)=ϕX(t)ϕY(t)=(sintt)2=ϕ(t).\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)=\left(\frac{\sin t}{t}\right)^2=\phi(t).

这说明 ϕ\phi 是某个随机变量(即 X+YX+Y)的特征函数。

于是对任意复数 c1,,cnc_1,\cdots,c_n,有

i,j=1ncicjϕ(titj)=i,j=1ncicjE ⁣[ei(titj)(X+Y)]=E ⁣[j=1ncjeitj(X+Y)2]0.\begin{aligned} \sum_{i,j=1}^n c_i\overline{c_j}\phi(t_i-t_j) &= \sum_{i,j=1}^n c_i\overline{c_j}\,\mathbb{E}\!\left[e^{i(t_i-t_j)(X+Y)}\right] \\ &= \mathbb{E}\!\left[\left|\sum_{j=1}^n c_j e^{it_j(X+Y)}\right|^2\right] \\ &\geq 0. \end{aligned}

故矩阵 HnH_n 非负定。

题目:5.1.5

X1,X2,,XnX_1,X_2,\cdots,X_n 为一族相互独立的随机变量,令

Yn=X12+X22++Xn2.Y_n=X_1^2+X_2^2+\cdots+X_n^2.

11 假设 XiN(i,1)X_i\sim N(i,1),试求 YnY_n 的特征函数。

22 假设 XiN(1,1)X_i\sim N(1,1)。若随机变量 NP(λ)N\sim P(\lambda),且 NNXiX_ii=1,2,i=1,2,\cdots)均独立,试求 YNY_N 的特征函数。

证明

XN(μ,1)X\sim N(\mu,1),则

E[eitX2]=12πRexp ⁣(itx2(xμ)22)dx=112itexp ⁣(iμ2t12it).\begin{aligned} \mathbb{E}[e^{itX^2}] &=\frac{1}{\sqrt{2\pi}}\int_{\mathbb{R}} \exp\!\left(itx^2-\frac{(x-\mu)^2}{2}\right)\,dx \\ &=\frac{1}{\sqrt{1-2it}} \exp\!\left(\frac{i\mu^2 t}{1-2it}\right). \end{aligned}

11 由独立性,

ϕYn(t)=k=1nE[eitXk2]=(12it)n/2exp ⁣(it12itk=1nk2).\phi_{Y_n}(t) =\prod_{k=1}^n \mathbb{E}[e^{itX_k^2}] =(1-2it)^{-n/2} \exp\!\left(\frac{it}{1-2it}\sum_{k=1}^n k^2\right).

ϕYn(t)=(12it)n/2exp ⁣(it12itn(n+1)(2n+1)6).\phi_{Y_n}(t) =(1-2it)^{-n/2} \exp\!\left(\frac{it}{1-2it}\cdot \frac{n(n+1)(2n+1)}{6}\right).

22 此时

ϕX12(t)=(12it)1/2exp ⁣(it12it).\phi_{X_1^2}(t) =(1-2it)^{-1/2}\exp\!\left(\frac{it}{1-2it}\right).

条件于 N=mN=m 时,

ϕYNN=m(t)=ϕX12(t)m.\phi_{Y_N\mid N=m}(t)=\phi_{X_1^2}(t)^m.

因此

ϕYN(t)=E ⁣[ϕX12(t)N]=exp ⁣{λ(ϕX12(t)1)}.\phi_{Y_N}(t) =\mathbb{E}\!\left[\phi_{X_1^2}(t)^N\right] =\exp\!\left\{\lambda\bigl(\phi_{X_1^2}(t)-1\bigr)\right\}.

ϕYN(t)=exp ⁣{λ((12it)1/2exp ⁣(it12it)1)}.\phi_{Y_N}(t) =\exp\!\left\{\lambda\left((1-2it)^{-1/2}\exp\!\left(\frac{it}{1-2it}\right)-1\right)\right\}.
题目:5.1.7

X1,,XnX_1,\cdots,X_n 独立同分布,记

Sn=X1++Xn.S_n=X_1+\cdots+X_n.

11 若矩母函数 M(t)=E[etX1]M(t)=\mathbb{E}[e^{tX_1}] 存在,证明尾概率估计

P(X1a)inft>0{eatM(t)}.\mathbb{P}(X_1\geq a)\leq \inf_{t>0}\{e^{-at}M(t)\}.

22P(X1=1)=P(X1=1)=12\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac12,试证明对任意 a>0a>0 均有

P(Sna)ea22n.\mathbb{P}(S_n\geq a)\leq e^{-\frac{a^2}{2n}}.
证明

(1) 对任意 t>0t>0,由 Markov 不等式,

P(X1a)=P(etX1eta)etaE[etX1]=etaM(t).\mathbb{P}(X_1\geq a) =\mathbb{P}(e^{tX_1}\geq e^{ta}) \leq e^{-ta}\mathbb{E}[e^{tX_1}] =e^{-ta}M(t).

再对 t>0t>0 取下确界即得

P(X1a)inft>0{eatM(t)}.\mathbb{P}(X_1\geq a)\leq \inf_{t>0}\{e^{-at}M(t)\}.

22 对任意 t>0t>0,由 (1) 作用于 SnS_n

P(Sna)eatE[etSn]=eat(E[etX1])n.\mathbb{P}(S_n\geq a)\leq e^{-at}\mathbb{E}[e^{tS_n}] =e^{-at}\bigl(\mathbb{E}[e^{tX_1}]\bigr)^n.

E[etX1]=et+et2=cosht.\mathbb{E}[e^{tX_1}]=\frac{e^t+e^{-t}}{2}=\cosh t.

并且

cosht=m=0t2m(2m)!m=0(t2/2)mm!=et2/2.\cosh t =\sum_{m=0}^\infty \frac{t^{2m}}{(2m)!} \leq \sum_{m=0}^\infty \frac{(t^2/2)^m}{m!} =e^{t^2/2}.

因而

P(Sna)exp ⁣(at+nt22).\mathbb{P}(S_n\geq a)\leq \exp\!\left(-at+\frac{nt^2}{2}\right).

t=ant=\frac{a}{n},得到

P(Sna)ea2/(2n).\mathbb{P}(S_n\geq a)\leq e^{-a^2/(2n)}.
题目:5.1.8

若随机变量 XX 的尾部概率对某正常数 KK 满足

P(Xt)2et2/K2,t0,\mathbb{P}(|X|\geq t)\leq 2e^{-t^2/K^2}, \qquad \forall t\geq 0,

则称 XX 为次高斯随机变量。证明

11XX 的矩母函数满足

E[esX]es2/2,sR,\mathbb{E}[e^{sX}]\leq e^{s^2/2}, \qquad \forall s\in\mathbb{R},

XX 为次高斯随机变量。

22 次高斯随机变量的矩满足不等式

E[Xp](K1p)p,p1.\mathbb{E}[|X|^p]\leq (K_1\sqrt{p})^p, \qquad \forall p\geq 1.

这里 K1K_1 为不依赖 pp 的正常数。提示:必要时可以利用 Stirling 公式

n!nnen2πn.n!\sim n^n e^{-n}\sqrt{2\pi n}.
证明

(1) 对任意 s,t>0s,t>0,由 Markov 不等式,

P(Xt)=P(esXest)estE[esX]est+s2/2.\mathbb{P}(X\geq t) =\mathbb{P}(e^{sX}\geq e^{st}) \leq e^{-st}\mathbb{E}[e^{sX}] \leq e^{-st+s^2/2}.

s=ts=t,得

P(Xt)et2/2.\mathbb{P}(X\geq t)\leq e^{-t^2/2}.

同理对 X-X 也有

P(Xt)et2/2.\mathbb{P}(X\leq -t)\leq e^{-t^2/2}.

因而

P(Xt)2et2/2,\mathbb{P}(|X|\geq t)\leq 2e^{-t^2/2},

XX 为次高斯随机变量。

22 由矩的尾积分公式,

E[Xp]=0ptp1P(X>t)dt2p0tp1et2/K2dt.\mathbb{E}[|X|^p] =\int_0^\infty pt^{p-1}\mathbb{P}(|X|>t)\,dt \leq 2p\int_0^\infty t^{p-1}e^{-t^2/K^2}\,dt.

作代换 u=t2/K2u=t^2/K^2,得

E[Xp]pKp0up/21eudu=pKpΓ(p/2)=2KpΓ(p/2+1).\mathbb{E}[|X|^p] \leq pK^p\int_0^\infty u^{p/2-1}e^{-u}\,du =pK^p\Gamma(p/2) =2K^p\Gamma(p/2+1).

由 Stirling 公式,存在常数 C>0C>0,使得对所有 p1p\geq 1,

Γ(p/2+1)Cppp/2.\Gamma(p/2+1)\leq C^p p^{p/2}.

因而

E[Xp](K1p)p\mathbb{E}[|X|^p]\leq (K_1\sqrt{p})^p

对某个与 pp 无关的常数 K1K_1 成立。

习题5.2

旁注

这里看分布收敛和独立性的传递。Cauchy 例题提醒我们:没有一阶矩时不能套大数定律直觉。

题目:5.2.2

Xn,YnX_n,Y_n 独立,X,YX,Y 也独立,且 XnDXX_n\xrightarrow{D}XYnDYY_n\xrightarrow{D}Y,证明

Xn+YnDX+Y.X_n+Y_n\xrightarrow{D}X+Y.
证明

由独立性,

ϕXn+Yn(t)=ϕXn(t)ϕYn(t).\phi_{X_n+Y_n}(t)=\phi_{X_n}(t)\phi_{Y_n}(t).

又因为 XnDXX_n\xrightarrow{D}XYnDYY_n\xrightarrow{D}Y,故对任意 tRt\in\mathbb{R},

ϕXn(t)ϕX(t),ϕYn(t)ϕY(t).\phi_{X_n}(t)\to \phi_X(t),\qquad \phi_{Y_n}(t)\to \phi_Y(t).

再由 X,YX,Y 独立,

ϕX(t)ϕY(t)=ϕX+Y(t).\phi_X(t)\phi_Y(t)=\phi_{X+Y}(t).

因而

ϕXn+Yn(t)ϕX+Y(t).\phi_{X_n+Y_n}(t)\to \phi_{X+Y}(t).

由 Lévy 连续性定理,

Xn+YnDX+Y.X_n+Y_n\xrightarrow{D}X+Y.
题目:5.2.3

随机变量 X1,,XnX_1,\cdots,X_n 相互独立且服从柯西分布,证明

1nk=1nXk\frac{1}{n}\sum_{k=1}^n X_k

亦服从柯西分布。

证明

先计算标准柯西分布的特征函数。若 XX 服从密度

f(x)=1π(1+x2),f(x)=\frac{1}{\pi(1+x^2)},

ϕX(t)=1πeitx1+x2dx.\phi_X(t) =\frac{1}{\pi}\int_{-\infty}^{\infty}\frac{e^{itx}}{1+x^2}\,dx.

t>0t>0 时,考虑

g(z)=eitz1+z2,g(z)=\frac{e^{itz}}{1+z^2},

并取上半平面的半圆轮廓。由 Jordan 引理,半圆弧上的积分趋于 00。轮廓内只有极点 z=iz=i,且

Res(g,i)=limzieitzz+i=et2i.\operatorname{Res}(g,i) =\lim_{z\to i}\frac{e^{itz}}{z+i} =\frac{e^{-t}}{2i}.

故由留数定理,

eitx1+x2dx=2πiet2i=πet.\int_{-\infty}^{\infty}\frac{e^{itx}}{1+x^2}\,dx =2\pi i\cdot \frac{e^{-t}}{2i} =\pi e^{-t}.

因而

ϕX(t)=et,t>0.\phi_X(t)=e^{-t},\qquad t>0.

又由于密度 ff 是偶函数,

ϕX(t)=1πcos(tx)1+x2dx,\phi_X(t) =\frac{1}{\pi}\int_{-\infty}^{\infty}\frac{\cos(tx)}{1+x^2}\,dx,

从而 ϕX\phi_X 是偶函数。故当 t<0t<0 时,

ϕX(t)=ϕX(t)=e(t)=et.\phi_X(t)=\phi_X(-t)=e^{-(-t)}=e^t.

再加上 ϕX(0)=1\phi_X(0)=1,综上

ϕX(t)=et,tR.\phi_X(t)=e^{-|t|},\qquad t\in\mathbb{R}.

因而

ϕXk/n(t)=ϕXk ⁣(tn)=et/n.\phi_{X_k/n}(t)=\phi_{X_k}\!\left(\frac{t}{n}\right)=e^{-|t|/n}.

由独立性,

ϕ1nk=1nXk(t)=k=1nϕXk/n(t)=(et/n)n=et.\phi_{\frac{1}{n}\sum_{k=1}^n X_k}(t) = \prod_{k=1}^n \phi_{X_k/n}(t) = \left(e^{-|t|/n}\right)^n = e^{-|t|}.

这与标准柯西分布的特征函数相同,故

1nk=1nXk\frac{1}{n}\sum_{k=1}^n X_k

仍服从柯西分布。

题目:5.2.5

ϕn(t)=cosnt\phi_n(t)=\cos^n ttRt\in\mathbb{R}

11 求特征函数 ϕ2(t)\phi_2(t) 对应的分布函数;

22 对一般的正整数 nnϕn(t)\phi_n(t) 是否为特征函数?回答并给出理由。

证明

(1) 若定义随机变量 XX 满足

P(X=2)=14,P(X=0)=12,P(X=2)=14,\mathbb{P}(X=-2)=\frac14,\qquad \mathbb{P}(X=0)=\frac12,\qquad \mathbb{P}(X=2)=\frac14,

ϕX(t)=14e2it+12+14e2it=cos2t.\phi_X(t)=\frac14e^{-2it}+\frac12+\frac14e^{2it}=\cos^2 t.

因而 ϕ2\phi_2 对应的分布函数为

F2(x)={0,x<2,14,2x<0,34,0x<2,1,x2.F_2(x)= \begin{cases} 0, & x<-2,\\ \frac14, & -2\leq x<0,\\ \frac34, & 0\leq x<2,\\ 1, & x\geq 2. \end{cases}

22 对任意正整数 nn,令 Y1,,YnY_1,\cdots,Y_n 独立同分布,且

P(Yk=1)=P(Yk=1)=12.\mathbb{P}(Y_k=1)=\mathbb{P}(Y_k=-1)=\frac12.

ϕYk(t)=12(eit+eit)=cost.\phi_{Y_k}(t)=\frac12(e^{it}+e^{-it})=\cos t.

于是由独立性,

ϕY1++Yn(t)=k=1nϕYk(t)=cosnt=ϕn(t).\phi_{Y_1+\cdots+Y_n}(t)=\prod_{k=1}^n \phi_{Y_k}(t)=\cos^n t=\phi_n(t).

因而对任意正整数 nnϕn(t)\phi_n(t) 都是特征函数。

习题5.3

旁注

中心极限定理题先确定中心化和标准化。方差随 nn 变时,尺度要先算清楚。

题目:5.3.1

试选择合适的数列 {μn}\{\mu_n\}{σn}\{\sigma_n\} 证明

XnμnσnDN(0,1).\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).

11 XnX_n 服从参数为正整数 nn 的泊松分布;

22 XnX_n 服从密度为

f(x)=xn1exΓ(n)1x0f(x)=\frac{x^{n-1}e^{-x}}{\Gamma(n)}\mathbf{1}_{x\geq 0}

Γ\Gamma 分布。

证明

(1) 若 Y1,,YnY_1,\cdots,Y_n 独立同分布且 YiP(1)Y_i\sim P(1),则

Xn:=Y1++YnP(n),X_n' := Y_1+\cdots+Y_n \sim P(n),

XnX_n'XnX_n 同分布。由 i.i.d. CLT,

XnnnDN(0,1).\frac{X_n'-n}{\sqrt{n}} \xrightarrow{D} N(0,1).

因而取

μn=n,σn=n,\mu_n=n,\qquad \sigma_n=\sqrt{n},

就有

XnμnσnDN(0,1).\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).

22Z1,,ZnZ_1,\cdots,Z_n 独立同分布且每个 ZiZ_i 服从参数为 11 的指数分布,则

Xn:=Z1++ZnX_n' := Z_1+\cdots+Z_n

的密度正是

f(x)=xn1exΓ(n)1x0.f(x)=\frac{x^{n-1}e^{-x}}{\Gamma(n)}\mathbf{1}_{x\geq 0}.

于是 XnX_n'XnX_n 同分布。再次由 i.i.d. CLT,

XnnnDN(0,1).\frac{X_n'-n}{\sqrt{n}} \xrightarrow{D} N(0,1).

故同样取

μn=n,σn=n,\mu_n=n,\qquad \sigma_n=\sqrt{n},

即得

XnμnσnDN(0,1).\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).
题目:5.3.3

随机变量 X1,,XnX_1,\cdots,X_n 独立同分布且满足

P(X1=1)=P(X1=1)=12,\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac12,

证明

3n3/2k=1nkXkDN(0,1).\frac{\sqrt{3}}{n^{3/2}}\sum_{k=1}^n kX_k \xrightarrow{D} N(0,1).
证明

Yn,k=kXk,1kn.Y_{n,k}=kX_k,\qquad 1\leq k\leq n.

{Yn,k}k=1n\{Y_{n,k}\}_{k=1}^n 相互独立,且

E[Yn,k]=0,Var(Yn,k)=k2.\mathbb{E}[Y_{n,k}]=0,\qquad \operatorname{Var}(Y_{n,k})=k^2.

Bn2=k=1nVar(Yn,k)=k=1nk2=n(n+1)(2n+1)6.B_n^2=\sum_{k=1}^n \operatorname{Var}(Y_{n,k})=\sum_{k=1}^n k^2=\frac{n(n+1)(2n+1)}{6}.

对任意 ε>0\varepsilon>0,当 nn 充分大时,由于 Bnn3/2B_n\asymp n^{3/2},便有

Yn,k=kn<εBn,1kn.|Y_{n,k}|=k\leq n<\varepsilon B_n,\qquad 1\leq k\leq n.

从而

k=1nE ⁣[Yn,k2;Yn,k>εBn]=0,\sum_{k=1}^n \mathbb{E}\!\left[Y_{n,k}^2; |Y_{n,k}|>\varepsilon B_n\right]=0,

所以 Lindeberg 条件显然成立。由 Lindeberg-Feller CLT,

k=1nkXkBnDN(0,1).\frac{\sum_{k=1}^n kX_k}{B_n}\xrightarrow{D}N(0,1).

Bnn3/2=(n+1)(2n+1)6n213,\frac{B_n}{n^{3/2}} = \sqrt{\frac{(n+1)(2n+1)}{6n^2}} \longrightarrow \frac{1}{\sqrt{3}},

因而

3n3/2k=1nkXkDN(0,1).\frac{\sqrt{3}}{n^{3/2}}\sum_{k=1}^n kX_k \xrightarrow{D} N(0,1).

习题5.5

旁注

Slutsky 定理用于把随机误差替换为常数极限;关键是加数或乘数是否依概率收敛到常数。

题目:5.5.12

Slutsky 定理的叙述如下:设随机变量 {Xn}\{X_n\}{Yn}\{Y_n\}{Zn}\{Z_n\} 满足

XnDX,YnPb,ZnPc,X_n\xrightarrow{D}X,\qquad Y_n\xrightarrow{P}b,\qquad Z_n\xrightarrow{P}c,

其中 XX 为随机变量,b,cb,c 为常数,则

XnYn+ZnDbX+c.X_nY_n+Z_n \xrightarrow{D} bX+c.

试利用 Slutsky 定理回答如下问题:

11 设随机变量列 {Xn}\{X_n\} 独立同分布,E[X1]=0\mathbb{E}[X_1]=0 且二阶矩有限,令

X=1nk=1nXk,\overline{X}=\frac{1}{n}\sum_{k=1}^n X_k,

证明

k=1nXkk=1n(XkX)2DN(0,1).\frac{\sum_{k=1}^n X_k}{\sqrt{\sum_{k=1}^n (X_k-\overline{X})^2}}\xrightarrow{D}N(0,1).

22 随机变量列 {Xn}\{X_n\} 相互独立且满足

P(Xn=±2n)=12n+1,P(Xn=±1)=1212n+1,\mathbb{P}(X_n=\pm 2^n)=\frac{1}{2^{n+1}}, \qquad \mathbb{P}(X_n=\pm 1)=\frac12-\frac{1}{2^{n+1}},

证明

1nk=1nXkDN(0,1).\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k \xrightarrow{D} N(0,1).

33 随机变量列 {Xn}\{X_n\} 独立同分布,且满足 E[X1]=Var(X1)=1\mathbb{E}[X_1]=\operatorname{Var}(X_1)=1。记

Sn=k=1nXk,S_n=\sum_{k=1}^n X_k,

证明

Sn3/2n3/232nDN(0,1).\frac{S_n^{3/2}-n^{3/2}}{\frac{3}{2}n}\xrightarrow{D}N(0,1).
证明

(1) 记 σ2=Var(X1)\sigma^2=\operatorname{Var}(X_1)。由 CLT,

k=1nXkσnDN(0,1).\frac{\sum_{k=1}^n X_k}{\sigma\sqrt{n}}\xrightarrow{D}N(0,1).

1nk=1n(XkX)2=1nk=1nXk2X2.\frac{1}{n}\sum_{k=1}^n (X_k-\overline{X})^2 =\frac{1}{n}\sum_{k=1}^n X_k^2-\overline{X}^{\,2}.

由弱大数定律,

1nk=1nXk2PE[X12]=σ2,XP0.\frac{1}{n}\sum_{k=1}^n X_k^2\xrightarrow{P}\mathbb{E}[X_1^2]=\sigma^2, \qquad \overline{X}\xrightarrow{P}0.

因而

1nk=1n(XkX)2Pσ2,σ1nk=1n(XkX)2P1.\frac{1}{n}\sum_{k=1}^n (X_k-\overline{X})^2\xrightarrow{P}\sigma^2, \qquad \frac{\sigma}{\sqrt{\frac1n\sum_{k=1}^n (X_k-\overline{X})^2}}\xrightarrow{P}1.

于是由 Slutsky 定理,

k=1nXkk=1n(XkX)2=k=1nXkσnσ1nk=1n(XkX)2DN(0,1).\frac{\sum_{k=1}^n X_k}{\sqrt{\sum_{k=1}^n (X_k-\overline{X})^2}} =\frac{\sum_{k=1}^n X_k}{\sigma\sqrt{n}}\cdot \frac{\sigma}{\sqrt{\frac1n\sum_{k=1}^n (X_k-\overline{X})^2}} \xrightarrow{D}N(0,1).

22 不妨设

Xk=(1Bk)εk+Bk2kηk,X_k=(1-B_k)\varepsilon_k+B_k2^k\eta_k,

其中 {Bk}\{B_k\}{εk}\{\varepsilon_k\}{ηk}\{\eta_k\} 相互独立,且

P(Bk=1)=2k,P(εk=±1)=P(ηk=±1)=12.\mathbb{P}(B_k=1)=2^{-k},\qquad \mathbb{P}(\varepsilon_k=\pm1)=\mathbb{P}(\eta_k=\pm1)=\frac12.

这样定义的 XkX_k 正好具有题中的分布。记

Tn=k=1nεk,Rn=k=1nBk(2kηkεk).T_n=\sum_{k=1}^n \varepsilon_k,\qquad R_n=\sum_{k=1}^n B_k(2^k\eta_k-\varepsilon_k).

k=1nXk=Tn+Rn.\sum_{k=1}^n X_k=T_n+R_n.

又因为

k=1P(Bk=1)=k=12k<,\sum_{k=1}^\infty \mathbb{P}(B_k=1)=\sum_{k=1}^\infty 2^{-k}<\infty,

由第一 Borel-Cantelli 引理,事件 {Bk=1}\{B_k=1\} 只会发生有限次。故 RnR_n a.s. 最终为常数,从而

Rnna.s.0.\frac{R_n}{\sqrt{n}}\xrightarrow{\text{a.s.}}0.

另一方面,由 CLT,

TnnDN(0,1).\frac{T_n}{\sqrt{n}}\xrightarrow{D}N(0,1).

因此由 Slutsky 定理,

1nk=1nXk=Tnn+RnnDN(0,1).\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k =\frac{T_n}{\sqrt{n}}+\frac{R_n}{\sqrt{n}} \xrightarrow{D}N(0,1).

33

Tn=Snnn,Un=Snn.T_n=\frac{S_n-n}{\sqrt{n}},\qquad U_n=\frac{S_n}{n}.

由 CLT,

TnDN(0,1),T_n\xrightarrow{D}N(0,1),

由弱大数定律,

UnP1.U_n\xrightarrow{P}1.

Sn3/2n3/232n=Tn23Un3/21Un1.\frac{S_n^{3/2}-n^{3/2}}{\frac32 n} =T_n\cdot \frac{2}{3}\cdot \frac{U_n^{3/2}-1}{U_n-1}.

g(u)=23u3/21u1(u1),g(1)=1.g(u)=\frac{2}{3}\cdot \frac{u^{3/2}-1}{u-1}\quad (u\neq 1),\qquad g(1)=1.

ggu=1u=1 处连续,故

g(Un)P1.g(U_n)\xrightarrow{P}1.

再由 Slutsky 定理,

Sn3/2n3/232nDN(0,1).\frac{S_n^{3/2}-n^{3/2}}{\frac32 n}\xrightarrow{D}N(0,1).

习题5.4

旁注

这一节进入更强的极限定理和 Stein 方法。读证明时区分弱收敛、矩界和可积性各自用在哪里。

题目:5.4.1

随机变量X1,X2,X_1,X_2,\dots独立同分布,P(X1=1)=P(X1=1)=12\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac{1}{2},证明对任意δ>0\delta>0均有

1n1/2+δk=1nXka.s.0.\frac{1}{n^{1/2+\delta}}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} 0.
证明

如果只用Chebyshev不等式,你会发现只能做到δ>1/2\delta > 1 /2。我们尝试使用更高阶矩。待定正整数 mm。记

Sn=k=1nXk.S_n=\sum_{k=1}^n X_k.

对任意 ε>0\varepsilon>0,由 Markov 不等式,

P(Snn1/2+δ>ε)=P(Snn1/2+δ2m>ε2m)ESn2mε2mnm+2mδ.\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right)=\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|^{2m}>\varepsilon^{2m}\right) \leq \frac{\mathbb{E}|S_n|^{2m}}{\varepsilon^{2m}n^{m+2m\delta}}.

下面估计 ESn2m\mathbb{E}|S_n|^{2m}。展开得

ESn2m=i1,,i2m=1nE(Xi1Xi2m).\mathbb{E}S_n^{2m} = \sum_{i_1,\dots,i_{2m}=1}^n \mathbb{E}(X_{i_1}\cdots X_{i_{2m}}).

由于 XiX_i 独立且 EXi=0\mathbb{E}X_i=0,若某个指标只出现奇数次,则该项期望为 00。因此非零项中出现的不同指标个数至多为 mm。于是存在只依赖于 mm 的常数 CmC_m,使得

ESn2mCmnm.\mathbb{E}S_n^{2m}\le C_m n^m.

从而

P(Snn1/2+δ>ε)Cmε2mn2mδ.\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right) \le \frac{C_m}{\varepsilon^{2m}}\, n^{-2m\delta}.

选取正整数 mm 使得

2mδ>1.2m\delta>1.

n=1P(Snn1/2+δ>ε)<.\sum_{n=1}^\infty \mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right) <\infty.

由 Borel-Cantelli 引理,

P(Snn1/2+δ>ε i.o.)=0.\mathbb{P}\left( \left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon \ \text{i.o.} \right)=0.

因此对任意固定的 ε>0\varepsilon>0,几乎必然存在 N(ω)N(\omega),使得当 nN(ω)n\ge N(\omega) 时,

Snn1/2+δε.\left|\frac{S_n}{n^{1/2+\delta}}\right|\le \varepsilon.

再令 ε\varepsilon 取所有正有理数,即得

Snn1/2+δa.s.0.\frac{S_n}{n^{1/2+\delta}}\xrightarrow{\mathrm{a.s.}}0.
题目:5.4.4

{Xk}\{X_k\} 为独立同分布随机变量列,

EX1=0,Var(X1)=1,EX13<.\mathbb{E}X_1=0,\qquad \operatorname{Var}(X_1)=1,\qquad \mathbb{E}|X_1|^3<\infty.

试用 Lindeberg 替换法证明 CLT 的收敛速度

suptRP(1nk=1nXkt)Φ(t)=O(n1/8).\sup_{t\in\mathbb{R}} \left| \mathbb{P}\left(\frac{1}{\sqrt n}\sum_{k=1}^n X_k\le t\right) -\Phi(t) \right| = O(n^{-1/8}).

这里 Φ(t)\Phi(t) 表示标准正态分布函数。

证明

Sn=k=1nXk,Wn=Snn.S_n=\sum_{k=1}^n X_k, \qquad W_n=\frac{S_n}{\sqrt n}.

Y1,,YnY_1,\dots,Y_n 为独立同分布的标准正态随机变量,并且与 X1,,XnX_1,\dots,X_n 独立。记

Zn=1nk=1nYk.Z_n=\frac{1}{\sqrt n}\sum_{k=1}^n Y_k.

ZnN(0,1)Z_n\sim N(0,1),所以

P(Znt)=Φ(t).\mathbb{P}(Z_n\le t)=\Phi(t).

ε>0\varepsilon>0。存在光滑函数 ft,εC3(R)f_{t,\varepsilon}\in C^3(\mathbb R),使得

1{xt}ft,ε(x)1{xt+ε},1_{\{x\le t\}}\le f_{t,\varepsilon}(x)\le 1_{\{x\le t+\varepsilon\}},

ft,ε(3)Cε3,\|f_{t,\varepsilon}^{(3)}\|_\infty\le C\varepsilon^{-3},

其中常数 CCt,ε,nt,\varepsilon,n 无关。

下面估计

Eft,ε(Wn)Eft,ε(Zn).\left|\mathbb{E}f_{t,\varepsilon}(W_n) - \mathbb{E}f_{t,\varepsilon}(Z_n)\right|.

逐个将 XkX_k 替换为 YkY_k。令

Tk=1n(Y1++Yk1+Xk+1++Xn).T_k= \frac{1}{\sqrt n} \left( Y_1+\cdots+Y_{k-1} + X_{k+1}+\cdots+X_n \right).

TkT_kXk,YkX_k,Y_k 独立。由 Taylor 展开,

ft,ε(Tk+Xkn)=ft,ε(Tk)+Xknft,ε(Tk)+Xk22nft,ε(Tk)+Rk,X,f_{t,\varepsilon}\left(T_k+\frac{X_k}{\sqrt n}\right) = f_{t,\varepsilon}(T_k) + \frac{X_k}{\sqrt n}f_{t,\varepsilon}'(T_k) + \frac{X_k^2}{2n}f_{t,\varepsilon}''(T_k) + R_{k,X},

其中

Rk,Xft,ε(3)6Xk3n3/2.|R_{k,X}| \le \frac{\|f_{t,\varepsilon}^{(3)}\|_\infty}{6} \frac{|X_k|^3}{n^{3/2}}.

同理,

ft,ε(Tk+Ykn)=ft,ε(Tk)+Yknft,ε(Tk)+Yk22nft,ε(Tk)+Rk,Y,f_{t,\varepsilon}\left(T_k+\frac{Y_k}{\sqrt n}\right) = f_{t,\varepsilon}(T_k) + \frac{Y_k}{\sqrt n}f_{t,\varepsilon}'(T_k) + \frac{Y_k^2}{2n}f_{t,\varepsilon}''(T_k) + R_{k,Y},

Rk,Yft,ε(3)6Yk3n3/2.|R_{k,Y}| \le \frac{\|f_{t,\varepsilon}^{(3)}\|_\infty}{6} \frac{|Y_k|^3}{n^{3/2}}.

因为

EXk=EYk=0,EXk2=EYk2=1,\mathbb{E}X_k=\mathbb{E}Y_k=0, \qquad \mathbb{E}X_k^2=\mathbb{E}Y_k^2=1,

TkT_kXk,YkX_k,Y_k 独立,所以一阶项和二阶项在取期望后相消。因此

Eft,ε(Tk+Xkn)Eft,ε(Tk+Ykn)Cε3n3/2.\left| \mathbb{E}f_{t,\varepsilon}\left(T_k+\frac{X_k}{\sqrt n}\right) - \mathbb{E}f_{t,\varepsilon}\left(T_k+\frac{Y_k}{\sqrt n}\right) \right| \le C\varepsilon^{-3}n^{-3/2}.

k=1,,nk=1,\dots,n 相加,得到

Eft,ε(Wn)Eft,ε(Zn)Cε3n1/2.\left|\mathbb{E}f_{t,\varepsilon}(W_n) - \mathbb{E}f_{t,\varepsilon}(Z_n)\right| \le C\varepsilon^{-3}n^{-1/2}.

于是

P(Wnt)Eft,ε(Wn)Eft,ε(Zn)+Cε3n1/2.\mathbb{P}(W_n\le t) \le \mathbb{E}f_{t,\varepsilon}(W_n) \le \mathbb{E}f_{t,\varepsilon}(Z_n) + C\varepsilon^{-3}n^{-1/2}.

又因为

ft,ε(x)1{xt+ε},f_{t,\varepsilon}(x)\le 1_{\{x\le t+\varepsilon\}},

所以

Eft,ε(Zn)P(Znt+ε)=Φ(t+ε).\mathbb{E}f_{t,\varepsilon}(Z_n) \le \mathbb{P}(Z_n\le t+\varepsilon) = \Phi(t+\varepsilon).

因此

P(Wnt)Φ(t)Φ(t+ε)Φ(t)+Cε3n1/2.\mathbb{P}(W_n\le t)-\Phi(t) \le \Phi(t+\varepsilon)-\Phi(t) + C\varepsilon^{-3}n^{-1/2}.

由于标准正态密度有界,

Φ(t+ε)Φ(t)Cε,\Phi(t+\varepsilon)-\Phi(t)\le C\varepsilon,

P(Wnt)Φ(t)Cε+Cε3n1/2.\mathbb{P}(W_n\le t)-\Phi(t) \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

另一方面,同理取光滑函数满足

1{xtε}gt,ε(x)1{xt},gt,ε(3)Cε3.1_{\{x\le t-\varepsilon\}} \le g_{t,\varepsilon}(x) \le 1_{\{x\le t\}}, \qquad \|g_{t,\varepsilon}^{(3)}\|_\infty\le C\varepsilon^{-3}.

重复上述 Lindeberg 替换,得到

Egt,ε(Wn)Egt,ε(Zn)Cε3n1/2.\left| \mathbb{E}g_{t,\varepsilon}(W_n) - \mathbb{E}g_{t,\varepsilon}(Z_n) \right| \le C\varepsilon^{-3}n^{-1/2}.

因此

P(Wnt)Egt,ε(Wn)Egt,ε(Zn)Cε3n1/2.\mathbb{P}(W_n\le t) \ge \mathbb{E}g_{t,\varepsilon}(W_n) \ge \mathbb{E}g_{t,\varepsilon}(Z_n) - C\varepsilon^{-3}n^{-1/2}.

Egt,ε(Zn)P(Zntε)=Φ(tε),\mathbb{E}g_{t,\varepsilon}(Z_n) \ge \mathbb{P}(Z_n\le t-\varepsilon) = \Phi(t-\varepsilon),

所以

Φ(t)P(Wnt)Φ(t)Φ(tε)+Cε3n1/2Cε+Cε3n1/2.\Phi(t)-\mathbb{P}(W_n\le t) \le \Phi(t)-\Phi(t-\varepsilon) + C\varepsilon^{-3}n^{-1/2} \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

综上,对任意 tRt\in\mathbb R

P(Wnt)Φ(t)Cε+Cε3n1/2.\left| \mathbb{P}(W_n\le t)-\Phi(t) \right| \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

ε=n1/8,\varepsilon=n^{-1/8},

P(Wnt)Φ(t)Cn1/8.\left| \mathbb{P}(W_n\le t)-\Phi(t) \right| \le Cn^{-1/8}.

因此

suptRP(1nk=1nXkt)Φ(t)=O(n1/8).\sup_{t\in\mathbb R} \left| \mathbb{P}\left(\frac{1}{\sqrt n}\sum_{k=1}^n X_k\le t\right) - \Phi(t) \right| = O(n^{-1/8}).

核心是:先用光滑函数近似指标函数,再逐个把 XiX_i 替换成正态变量 YiY_i。 因为 XiX_iYiY_i 的前两阶矩相同,Taylor 展开中的一阶、二阶项会相消,只剩三阶余项。 平滑误差为 O(ε)O(\varepsilon),替换误差为 O(ε3n1/2)O(\varepsilon^{-3}n^{-1/2}),取 ε=n1/8\varepsilon=n^{-1/8} 即得结论。

题目:5.4.5

{Xn}\{X_n\} 为独立同分布的随机变量列,

EX1=0,EX12=1,\mathbb{E}X_1=0,\qquad \mathbb{E}X_1^2=1,

且对所有 l3l\ge 3 均有

EX1l<.\mathbb{E}|X_1|^l<\infty.

Sn=X1++Xn.S_n=X_1+\cdots+X_n.

Hk(x)H_k(x)kk 阶 Hermite 多项式,即满足

H0=1,(1)kHk(x)ϕ(x)=ϕ(k)(x),H_0=1,\qquad (-1)^kH_k(x)\phi(x)=\phi^{(k)}(x),

其中 ϕ\phi 是标准正态分布的密度函数。求证:

limnE[Hk(Snn)]=0,k1.\lim_{n\to\infty} \mathbb{E}\left[ H_k\left(\frac{S_n}{\sqrt n}\right) \right] =0,\qquad \forall k\ge 1.
证明

Wn=Snn.W_n=\frac{S_n}{\sqrt n}.

我们先证明:对任意固定的正整数 jj,有

limnEWnj=EZj,\lim_{n\to\infty}\mathbb{E}W_n^j = \mathbb{E}Z^j,

其中 ZN(0,1)Z\sim N(0,1)

展开得

EWnj=nj/2i1,,ij=1nE(Xi1Xij).\mathbb{E}W_n^j = n^{-j/2} \sum_{i_1,\dots,i_j=1}^n \mathbb{E}(X_{i_1}\cdots X_{i_j}).

由于 EX1=0\mathbb{E}X_1=0XiX_i 独立,若某个指标只出现一次,则对应项期望为 00

因此非零项中,每个出现的指标至少出现两次。若出现了 rr 个不同指标,则

rj2.r\le \frac j2.

r<j/2r<j/2 时,这类项的总贡献至多为

O(nr)nj/2=o(1).O(n^r)n^{-j/2}=o(1).

所以极限只可能来自 r=j/2r=j/2 的情形。这要求 jj 为偶数,并且每个出现的指标恰好出现两次。设 j=2mj=2m,则这种配对方式共有

(2m1)!!(2m-1)!!

种,且每一项的期望为

EX12EXm2=1.\mathbb{E}X_1^2\cdots \mathbb{E}X_m^2=1.

因此

limnEWn2m=(2m1)!!.\lim_{n\to\infty}\mathbb{E}W_n^{2m} = (2m-1)!!.

jj 为奇数,则不存在 r=j/2r=j/2 的情形,故

limnEWnj=0.\lim_{n\to\infty}\mathbb{E}W_n^j=0.

这正是标准正态随机变量 ZZ 的各阶矩,因此

limnEWnj=EZj.\lim_{n\to\infty}\mathbb{E}W_n^j = \mathbb{E}Z^j.

由于 Hk(x)H_k(x) 是一个 kk 次多项式,可写为

Hk(x)=j=0kajxj.H_k(x)=\sum_{j=0}^k a_jx^j.

于是由上面的矩收敛,

limnEHk(Wn)=j=0kajlimnEWnj=j=0kajEZj=EHk(Z).\lim_{n\to\infty} \mathbb{E}H_k(W_n) = \sum_{j=0}^k a_j\lim_{n\to\infty}\mathbb{E}W_n^j = \sum_{j=0}^k a_j\mathbb{E}Z^j = \mathbb{E}H_k(Z).

最后计算 EHk(Z)\mathbb{E}H_k(Z)。由 ZN(0,1)Z\sim N(0,1)

EHk(Z)=Hk(x)ϕ(x)dx.\mathbb{E}H_k(Z) = \int_{-\infty}^{\infty}H_k(x)\phi(x)\,dx.

根据 Hermite 多项式的定义,

Hk(x)ϕ(x)=(1)kϕ(k)(x).H_k(x)\phi(x)=(-1)^k\phi^{(k)}(x).

因此

EHk(Z)=(1)kϕ(k)(x)dx.\mathbb{E}H_k(Z) = (-1)^k \int_{-\infty}^{\infty}\phi^{(k)}(x)\,dx.

k1k\ge 1 时,

ϕ(k)(x)dx=ϕ(k1)()ϕ(k1)()=0.\int_{-\infty}^{\infty}\phi^{(k)}(x)\,dx = \phi^{(k-1)}(\infty)-\phi^{(k-1)}(-\infty) = 0.

EHk(Z)=0,k1.\mathbb{E}H_k(Z)=0,\qquad k\ge 1.

从而

limnE[Hk(Snn)]=0,k1.\lim_{n\to\infty} \mathbb{E}\left[ H_k\left(\frac{S_n}{\sqrt n}\right) \right] = 0,\qquad \forall k\ge 1.

本题想法是先证明 Sn/nS_n/\sqrt n 的固定阶矩收敛到标准正态矩。 展开矩时,由于 EXi=0\mathbb{E}X_i=0,只有指标成对出现的项在极限中保留下来,这正对应正态分布的矩。 又因为 HkH_k 是多项式,所以可由矩收敛推出 EHk(Sn/n)EHk(Z)\mathbb{E}H_k(S_n/\sqrt n)\to \mathbb{E}H_k(Z)。 最后利用 Hermite 多项式在标准正态下满足 EHk(Z)=0\mathbb{E}H_k(Z)=0

题目:5.4.8

(Stein 方法)试证明

XN(0,1)X\sim N(0,1)

当且仅当对任意有界连续函数 gg,若其导数 gg' 也有界连续,则总有

E[Xg(X)]=E[g(X)].\mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)].

提示:对标准正态分布 ZZ 和有界连续函数 hh,构造一个新的函数

g0(x)=ex2/2xey2/2(h(y)Eh(Z))dy.g_0(x) = e^{x^2/2} \int_{-\infty}^x e^{-y^2/2}\bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.
证明

先证必要性。若 XN(0,1)X\sim N(0,1),其密度为

ϕ(x)=12πex2/2.\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}.

因为

ϕ(x)=xϕ(x),\phi'(x)=-x\phi(x),

所以

E[Xg(X)]=xg(x)ϕ(x)dx=g(x)ϕ(x)dx.\mathbb{E}[Xg(X)] = \int_{-\infty}^{\infty}xg(x)\phi(x)\,dx = -\int_{-\infty}^{\infty}g(x)\phi'(x)\,dx.

对右边分部积分,得

g(x)ϕ(x)dx=[g(x)ϕ(x)]+g(x)ϕ(x)dx.-\int_{-\infty}^{\infty}g(x)\phi'(x)\,dx = -\Bigl[g(x)\phi(x)\Bigr]_{-\infty}^{\infty} + \int_{-\infty}^{\infty}g'(x)\phi(x)\,dx.

由于 gg 有界且 ϕ(x)0\phi(x)\to 0,边界项为 00。因此

E[Xg(X)]=E[g(X)].\mathbb{E}[Xg(X)] = \mathbb{E}[g'(X)].

下面证充分性。设对任意有界连续 gg,且 gg' 有界连续时,都有

E[Xg(X)]=E[g(X)].\mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)].

我们要证明 XN(0,1)X\sim N(0,1)

ZN(0,1)Z\sim N(0,1)。任取有界连续函数 hh,定义

g0(x)=ex2/2xey2/2(h(y)Eh(Z))dy.g_0(x) = e^{x^2/2} \int_{-\infty}^x e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.

由于

ey2/2(h(y)Eh(Z))dy=0,\int_{-\infty}^{\infty} e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy =0,

也可写为

g0(x)=ex2/2xey2/2(h(y)Eh(Z))dy.g_0(x) = -e^{x^2/2} \int_x^\infty e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.

由标准正态尾部估计可知,g0g_0 有界连续,且其导数也有界连续。

g0g_0 求导:

g0(x)=xex2/2xey2/2(h(y)Eh(Z))dy+h(x)Eh(Z).g_0'(x) = x e^{x^2/2} \int_{-\infty}^x e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy + h(x)-\mathbb{E}h(Z).

因此

g0(x)=xg0(x)+h(x)Eh(Z),g_0'(x) = xg_0(x)+h(x)-\mathbb{E}h(Z),

g0(x)xg0(x)=h(x)Eh(Z).g_0'(x)-xg_0(x) = h(x)-\mathbb{E}h(Z).

由假设,将 g=g0g=g_0 代入,得到

E[Xg0(X)]=E[g0(X)].\mathbb{E}[Xg_0(X)] = \mathbb{E}[g_0'(X)].

因此

E[g0(X)Xg0(X)]=0.\mathbb{E}\bigl[g_0'(X)-Xg_0(X)\bigr]=0.

由上面的 Stein 方程,

g0(X)Xg0(X)=h(X)Eh(Z).g_0'(X)-Xg_0(X) = h(X)-\mathbb{E}h(Z).

所以

Eh(X)Eh(Z)=0.\mathbb{E}h(X)-\mathbb{E}h(Z)=0.

Eh(X)=Eh(Z)\mathbb{E}h(X)=\mathbb{E}h(Z)

对任意有界连续函数 hh 成立。

因此 XXZZ 分布相同,即

XN(0,1).X\sim N(0,1).

综上,命题得证。

本题的核心是 Stein 方法中的一个基本刻画:

XN(0,1)E[Xg(X)]=E[g(X)]X\sim N(0,1) \quad\Longleftrightarrow\quad \mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)]

对足够多的测试函数 gg 成立。

必要性来自正态密度的特殊性质

ϕ(x)=xϕ(x),\phi'(x)=-x\phi(x),

因此可以通过分部积分把 E[Xg(X)]\mathbb{E}[Xg(X)] 转化为 E[g(X)]\mathbb{E}[g'(X)]

充分性更有技巧。我们想证明 XX 和标准正态 ZZ 分布相同,只需证明对任意有界连续函数 hh,都有

Eh(X)=Eh(Z).\mathbb{E}h(X)=\mathbb{E}h(Z).

为此构造一个函数 g0g_0,使它满足 Stein 方程

g0(x)xg0(x)=h(x)Eh(Z).g_0'(x)-xg_0(x)=h(x)-\mathbb{E}h(Z).

然后将 g0g_0 代入假设

E[Xg0(X)]=E[g0(X)],\mathbb{E}[Xg_0(X)]=\mathbb{E}[g_0'(X)],

就得到

Eh(X)=Eh(Z).\mathbb{E}h(X)=\mathbb{E}h(Z).

所以 XX 必为标准正态分布。这个方法的强大之处在于:它把"证明分布接近正态"转化成了"估计 Stein 方程两边的误差"。

不光是正态分布,其他一些经典分布也有类似的 Stein 刻画,比如指数分布、泊松分布等。通过构造合适的 Stein 方程,可以得到这些分布的刻画,从而在证明极限定理时提供了一个强有力的工具。举个例子,值得同学们思考:

(指数分布的 Stein 刻画)设 λ>0\lambda>0WW 是取值于 (0,)(0,\infty) 的连续型随机变量,具有密度 qq。证明:在适当正则条件下,

WExp(λ)W\sim \operatorname{Exp}(\lambda)

当且仅当对任意 fCc1(0,)f\in C_c^1(0,\infty),均有

Ef(W)=λEf(W).\mathbb{E}f'(W)=\lambda\mathbb{E}f(W).

拓展:从 χ² 分布到 Wishart 分布

阅读路线

概率论里的分布已经够多了,再多两个也无妨。下面这条路径值得探究:

正态样本正交分解平方和 / 外积和.\text{正态样本} \quad\Longrightarrow\quad \text{正交分解} \quad\Longrightarrow\quad \text{平方和 / 外积和}.

一维时,沿着这条路走,我们得到了 χ2\chi^2 分布,也解释了为什么 Xˉ\bar Xs2s^2 独立。多维时,我们又会得到什么呢?

1. 一维情形:平方和少一个方向

先回顾一下课程讲义中的“边角料”。若

Z1,,ZνiidN(0,1),Z_1,\ldots,Z_\nu\stackrel{\mathrm{iid}}{\sim}N(0,1),

i=1νZi2χν2.\sum_{i=1}^{\nu}Z_i^2\sim \chi^2_\nu.

这就是标准正态向量在 Rν\mathbb R^\nu 中的长度平方。换句话说,χν2\chi^2_\nu 可以看成 ν\nu 个独立标准正态平方和,也可以看成一个随机半径的平方。

再回顾一下我们熟悉的正态样本结论。若

X1,,XniidN(μ,σ2),s2=1n1i=1n(XiXˉ)2,X_1,\ldots,X_n\stackrel{\mathrm{iid}}{\sim}N(\mu,\sigma^2), \qquad s^2=\frac1{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2,

Xˉ ⁣ ⁣ ⁣s2,(n1)s2σ2χn12.\bar X\perp\!\!\!\perp s^2, \qquad \frac{(n-1)s^2}{\sigma^2}\sim \chi^2_{n-1}.

这里的 n1n-1 不是凭空产生的:事实上,样本向量

(X1μ,,Xnμ)(X_1-\mu,\ldots,X_n-\mu)

本来在 nn 维空间里,但样本均值对应的是一个特殊方向:

span{(1,,1)}.\operatorname{span}\{(1,\ldots,1)\}.

减去 Xˉ\bar X 之后,残差向量

(X1Xˉ,,XnXˉ)(X_1-\bar X,\ldots,X_n-\bar X)

和这个方向正交,所以只剩下 (n1)(n-1) 维空间。把残差向量的长度平方除以 σ2\sigma^2,得到的就是 χn12\chi^2_{n-1}

这里用到两个正态分布的事实:第一,标准正态向量经过正交旋转后分布不变;第二,对正态向量来说,正交分量不仅不相关,而且独立。第二点是正态分布的独特性质。

所以 n1n-1 的几何来源很简单:估计均值占掉了样本空间里的一个方向。

2. p 维情形会怎样?

现在把每个观测从一个数换成一个 pp 维向量(注:我们经常使用 pp 表征维度,尤其是高维情形)。设

Y1,,YνiidNp(0,Σ).Y_1,\ldots,Y_\nu\stackrel{\mathrm{iid}}{\sim}N_p(0,\Sigma).

在矩阵里,“平方”的自然版本不是 Yi2Y_i^2,而是外积

YiYi.Y_iY_i^\top.

于是平方和的矩阵版本就是

W=i=1νYiYi.W=\sum_{i=1}^{\nu}Y_iY_i^\top.

我们记

WWp(Σ,ν),W\sim W_p(\Sigma,\nu),

称它服从尺度矩阵为 Σ\Sigma、自由度为 ν\nu 的 Wishart 分布。

这个定义和 χν2\chi^2_\nu 是同一想法。若 p=1p=1,则 YiY_i 只是一个标量,且 YiN(0,σ2)Y_i\sim N(0,\sigma^2)。此时

W=i=1νYi2=σ2i=1νZi2σ2χν2.W=\sum_{i=1}^{\nu}Y_i^2 =\sigma^2\sum_{i=1}^{\nu}Z_i^2 \sim \sigma^2\chi^2_\nu.

所以 Wishart 分布不过是 χ2\chi^2 分布的推广。

例如 p=2p=2 时,

W=(iYi12iYi1Yi2iYi1Yi2iYi22).W= \begin{pmatrix} \sum_i Y_{i1}^2 & \sum_i Y_{i1}Y_{i2}\\ \sum_i Y_{i1}Y_{i2} & \sum_i Y_{i2}^2 \end{pmatrix}.

对角线记录每个方向上的平方和,非对角线记录两个方向之间的交叉项。χ2\chi^2 只看长度;Wishart 还把方向之间的关系也记了下来。

3. 主定理:样本协方差矩阵服从 Wishart 分布

X1,,XniidNp(μ,Σ),X_1,\ldots,X_n\stackrel{\mathrm{iid}}{\sim}N_p(\mu,\Sigma),

并定义样本均值向量和样本协方差矩阵

Xˉ=1ni=1nXi,S=1n1i=1n(XiXˉ)(XiXˉ).\bar X=\frac1n\sum_{i=1}^{n}X_i, \qquad S=\frac1{n-1}\sum_{i=1}^{n}(X_i-\bar X)(X_i-\bar X)^\top.

(n1)SWp(Σ,n1),Xˉ ⁣ ⁣ ⁣S.(n-1)S\sim W_p(\Sigma,n-1), \qquad \bar X\perp\!\!\!\perp S.

n1<pn-1<p,这个分布奇异:矩阵 (n1)S(n-1)S 的秩至多为 n1n-1,因此不可能正定。上面的构造仍然成立,只是通常写在正定矩阵锥上的密度公式要等自由度足够大时才适用,一般要求 ν>p1\nu>p-1

这正是一维结论

Xˉ ⁣ ⁣ ⁣s2,(n1)s2σ2χn12\bar X\perp\!\!\!\perp s^2, \qquad \frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}

的多维版本。一维情形,去掉样本均值后,残差平方和服从 χ2\chi^2 分布;多维情形,去掉样本均值向量后,残差外积和服从 Wishart 分布。可按下表理解:

一维正态样本 多维正态样本
平方 (XiXˉ)2(X_i-\bar X)^2 外积 (XiXˉ)(XiXˉ)(X_i-\bar X)(X_i-\bar X)^\top
平方和 外积和
χn12\chi^2_{n-1} Wp(Σ,n1)W_p(\Sigma,n-1)
Xˉ ⁣ ⁣ ⁣s2\bar X\perp\!\!\!\perp s^2 Xˉ ⁣ ⁣ ⁣S\bar X\perp\!\!\!\perp S

4. 证明:旋转样本空间

我们不从 Wishart 密度入手。密度当然有用,但第一次见 Wishart 就直接看密度,容易使人畏惧,我们把密度结果总结成了后面的remark。更佳的入口是正交分解。

把数据写成一个 n×pn\times p 矩阵

X=(X1Xn),1n=(1,,1).X= \begin{pmatrix} X_1^\top\\ \vdots\\ X_n^\top \end{pmatrix}, \qquad \mathbf 1_n=(1,\ldots,1)^\top.

取一个 n×nn\times n 正交矩阵 HH,使它的第一行为

1n1n.\frac1{\sqrt n}\mathbf 1_n^\top.

定义标准化数据矩阵

Z=(X1nμ)Σ1/2.Z=(X-\mathbf 1_n\mu^\top)\Sigma^{-1/2}.

ZZ 的各行是独立的 Np(0,Ip)N_p(0,I_p) 随机向量。左乘正交矩阵只是在样本编号方向上做旋转,因此

U=HZU=HZ

仍然有独立的 Np(0,Ip)N_p(0,I_p) 行。记第 jj 行为 uju_j^\top,其中 ujRpu_j\in\mathbb R^p

第一行正好对应均值方向:

u1=1n1nZ=n(Xˉμ)Σ1/2.u_1^\top =\frac1{\sqrt n}\mathbf 1_n^\top Z =\sqrt n\,(\bar X-\mu)^\top\Sigma^{-1/2}.

所以 u1u_1 包含的就是 Xˉ\bar X 的信息。

剩下的 u2,,unu_2^\top,\ldots,u_n^\top 是残差方向。令

P0=1n1n1n,P1=InP0.P_0=\frac1n\mathbf 1_n\mathbf 1_n^\top, \qquad P_1=I_n-P_0.

这里 P0P_0 是到均值方向的投影,P1P_1 是到其正交补的投影。由于 HH 的第一行是 1n/n\mathbf 1_n^\top/\sqrt n

P1=H(000In1)H.P_1 =H^\top \begin{pmatrix} 0&0\\ 0&I_{n-1} \end{pmatrix} H.

于是残差外积和可以写成

(n1)S=(X1nXˉ)(X1nXˉ)=XP1X=(X1nμ)P1(X1nμ)=Σ1/2ZP1ZΣ1/2=Σ1/2(j=2nujuj)Σ1/2=j=2n(Σ1/2uj)(Σ1/2uj).\begin{aligned} (n-1)S &=(X-\mathbf 1_n\bar X^\top)^\top(X-\mathbf 1_n\bar X^\top)\\ &=X^\top P_1X\\ &=(X-\mathbf 1_n\mu^\top)^\top P_1(X-\mathbf 1_n\mu^\top)\\ &=\Sigma^{1/2}Z^\top P_1Z\Sigma^{1/2}\\ &=\Sigma^{1/2}\left(\sum_{j=2}^{n}u_ju_j^\top\right)\Sigma^{1/2}\\ &=\sum_{j=2}^{n}(\Sigma^{1/2}u_j)(\Sigma^{1/2}u_j)^\top. \end{aligned}

第三行用到了 P11n=0P_1\mathbf 1_n=0:残差投影会把常数均值方向消掉。

最后一行就是 n1n-1 个独立 Np(0,Σ)N_p(0,\Sigma) 向量的外积和。因此

(n1)SWp(Σ,n1).(n-1)S\sim W_p(\Sigma,n-1).

另一方面,Xˉ\bar X 只依赖 u1u_1,而 SS 只依赖 u2,,unu_2,\ldots,u_n。这些向量相互独立,所以

Xˉ ⁣ ⁣ ⁣S.\bar X\perp\!\!\!\perp S.

这其实已经把 Cochran 定理的核心证明写出来了。下面把它抽象成投影矩阵版本。

为什么自由度是 n-1,不是 n-p

减去 Xˉ\bar X 去掉的是样本编号空间中的一个方向,即 (1,,1)(1,\ldots,1) 这个方向,而不是去掉 pp 个方向。剩下的每个残差方向仍然是完整的 pp 维向量。因此 Wishart 的自由度是 n1n-1

5. Cochran 定理:投影以后仍是 Wishart

更一般的表述如下。前面我们只投影掉均值方向;Cochran 定理说,只要投影矩阵是对称幂等的,正态样本矩阵被它截出来的那部分仍然给出 Wishart 分布。

定理:Cochran 定理

z1,,zmiidNp(0,Σ),Z=(z1zm).z_1,\ldots,z_m\stackrel{\mathrm{iid}}{\sim}N_p(0,\Sigma), \qquad Z= \begin{pmatrix} z_1^\top\\ \vdots\\ z_m^\top \end{pmatrix}.

PPm×mm\times m 对称幂等矩阵,r=rank(P)r=\operatorname{rank}(P),则

ZPZWp(Σ,r),Z(ImP)ZWp(Σ,mr),Z^\top PZ\sim W_p(\Sigma,r), \qquad Z^\top(I_m-P)Z\sim W_p(\Sigma,m-r),

并且这两个随机矩阵相互独立。

更一般地,若 P1,,PkP_1,\ldots,P_k 是两两正交的对称幂等矩阵,且 a=1kPa=Im\sum_{a=1}^kP_a=I_m,则

ZPaZWp(Σ,rank(Pa)),a=1,,k,Z^\top P_aZ\sim W_p(\Sigma,\operatorname{rank}(P_a)), \qquad a=1,\ldots,k,

并且这些矩阵相互独立。

证明

只证一个投影 PP 的情形,多个投影完全一样。由于 PP 对称幂等,它就是到某个 rr 维子空间的正交投影。因此存在正交矩阵 HH,使得

P=H(Ir000)H,ImP=H(000Imr)H.P = H^\top \begin{pmatrix} I_r&0\\ 0&0 \end{pmatrix} H, \qquad I_m-P = H^\top \begin{pmatrix} 0&0\\ 0&I_{m-r} \end{pmatrix} H.

Y=HZY=HZ。左乘正交矩阵只是旋转样本编号方向,所以 YY 的行仍然独立同分布于 Np(0,Σ)N_p(0,\Sigma)。把 YY 按行分成

Y=(Y1Y2),Y1Rr×p,Y2R(mr)×p.Y= \begin{pmatrix} Y_1\\ Y_2 \end{pmatrix}, \qquad Y_1\in\mathbb R^{r\times p},\quad Y_2\in\mathbb R^{(m-r)\times p}.

于是

ZPZ=Y1Y1,Z(ImP)Z=Y2Y2.Z^\top PZ=Y_1^\top Y_1, \qquad Z^\top(I_m-P)Z=Y_2^\top Y_2.

Y1Y_1Y2Y_2 用的是互不相交的正态行,所以独立。按照 Wishart 分布的定义,Y1Y1Wp(Σ,r)Y_1^\top Y_1\sim W_p(\Sigma,r)Y2Y2Wp(Σ,mr)Y_2^\top Y_2\sim W_p(\Sigma,m-r)

在样本协方差矩阵的例子里,取

P=In1n1n1n.P=I_n-\frac1n\mathbf 1_n\mathbf 1_n^\top.

这是秩为 n1n-1 的投影矩阵,而且 P1n=0P\mathbf 1_n=0。所以

(n1)S=XPX=(X1nμ)P(X1nμ)Wp(Σ,n1).(n-1)S =X^\top PX =(X-\mathbf 1_n\mu^\top)^\top P(X-\mathbf 1_n\mu^\top) \sim W_p(\Sigma,n-1).

这就是样本协方差矩阵服从 Wishart 分布的简洁证明。它比手工旋转样本空间更短,但背后的几何还是同一件事:投影先把样本编号空间切成几块,再把每一块里的正态行拿去做外积和。

6. 关于 Wishart 密度的注记

ν>p1\nu>p-1WW 正定,Wishart 密度为

f(W)=W(νp1)/2exp{12tr(Σ1W)}2νp/2Σν/2Γp(ν/2),W>0,f(W) = \frac{ |W|^{(\nu-p-1)/2} \exp\left\{-\frac12\operatorname{tr}(\Sigma^{-1}W)\right\} }{ 2^{\nu p/2}|\Sigma|^{\nu/2}\Gamma_p(\nu/2) }, \qquad W>0,

其中多元 Gamma 函数为

Γp(a)=πp(p1)/4j=1pΓ(aj12).\Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^{p}\Gamma\left(a-\frac{j-1}{2}\right).

第一次尝试理解 Wishart 时,看到上面的公式可能会凄凉值增加,它的推导需要在正定矩阵锥上做 Jacobian 计算,过于 technical 了,此处不表。

总结

一维正态样本中,投影去掉均值方向后,还剩 n1n-1 个独立的高斯残差方向;它们的长度平方给出 χn12\chi^2_{n-1}。Wishart 定理就是这句话的向量版本:平方变成外积,方差变成协方差矩阵,Xˉs2\bar X\perp s^2 变成 XˉS\bar X\perp S。Cochran 定理则把“均值方向”换成任意正交投影,是这套论证的通用版本。

章末回看
  • 本章原始题目和解答正文来自对应 TeX 分文件。
  • 可先只看题目框,写出关键等式后再展开证明或解答。
  • 若结论用到独立性、可列可加性、换元公式或矩条件,最好顺手标明。