第五次习题课

胡洁洋

阅读地图

本章进入收敛理论、强大数定律、特征函数、中心极限定理和 Stein 方法。
四种收敛模式的强弱关系是阅读的坐标系：a.s.、Lp、P、D。
证明中要特别跟踪是否用了独立性、矩条件、截断或 Borel-Cantelli。

提示凡是出现极限分布，都先问：是依概率极限、分布极限，还是几乎处处极限？

习题4.2

旁注

四种收敛模式要分清：a.s.、 $L^p$ 、P 和 D。看到箭头时先判断它是哪一种。

题目：4.2.1

证明如下两个不等式。

(1)（Lyapunov 不等式）对 $0<r<s$ ，有

\bigl(\mathbb{E}[|X|^r]\bigr)^{1/r} \leq \bigl(\mathbb{E}[|X|^s]\bigr)^{1/s}.

(2)（ $C_r$ 不等式）对 $r>0$ ，有

\mathbb{E}[|X+Y|^r] \leq C_r\bigl(\mathbb{E}[|X|^r]+\mathbb{E}[|Y|^r]\bigr),

其中

C_r= \begin{cases} 1, & 0<r<1,\\ 2^{r-1}, & r\geq 1. \end{cases}

证明

(1) 令 $\alpha=\frac{r}{s}\in(0,1)$ 。由于函数 $x\mapsto x^\alpha$ 在 $[0,\infty)$ 上凹，故由 Jensen 不等式，

\mathbb{E}[|X|^r] = \mathbb{E}\bigl[(|X|^s)^\alpha\bigr] \leq \bigl(\mathbb{E}[|X|^s]\bigr)^\alpha.

两边取 $1/r$ 次方即得

\bigl(\mathbb{E}[|X|^r]\bigr)^{1/r} \leq \bigl(\mathbb{E}[|X|^s]\bigr)^{1/s}.

$2$ 当 $0<r<1$ 时，对任意 $a,b\geq 0$ 有

(a+b)^r \leq a^r+b^r,

因而

|X+Y|^r \leq (|X|+|Y|)^r \leq |X|^r+|Y|^r.

取期望得

\mathbb{E}[|X+Y|^r] \leq \mathbb{E}[|X|^r]+\mathbb{E}[|Y|^r].

当 $r\geq 1$ 时，对任意 $a,b\geq 0$ ，由凸性或 Jensen 不等式可得

(a+b)^r = 2^r\left(\frac{a+b}{2}\right)^r \leq 2^{r-1}(a^r+b^r).

因此

|X+Y|^r \leq 2^{r-1}\bigl(|X|^r+|Y|^r\bigr),

再取期望即得结论。

题目：4.2.2

已知 $\{X_n\}$ 为随机变量列，实数列 $\{c_n\}$ 收敛于常数 $c$ 。在几乎处处收敛、 $L^p$ 收敛、依概率收敛和依分布收敛意义下分别证明

X_n \to X \Longrightarrow c_n X_n \to cX.

证明

若 $X_n\xrightarrow{\text{a.s.}}X$ ，则对几乎处处的 $\omega$ ，有

c_nX_n(\omega)\to cX(\omega),

故 $c_nX_n\xrightarrow{\text{a.s.}}cX$ 。

若 $X_n\xrightarrow{L^p}X$ ，则 $X\in L^p$ ，且 $\{c_n\}$ 有界。由前面的 $C_r$ 不等式，存在只依赖于 $p$ 的常数 $C_p>0$ ，使得

|c_nX_n-cX|^p \leq C_p\bigl(|c_n|^p|X_n-X|^p+|c_n-c|^p|X|^p\bigr).

两边取期望，便得

\mathbb{E}[|c_nX_n-cX|^p]\to 0,

即 $c_nX_n\xrightarrow{L^p}cX$ 。

若 $X_n\xrightarrow{P}X$ ，则

c_nX_n-cX=c_n(X_n-X)+(c_n-c)X.

由于 $\{c_n\}$ 有界，第一项依概率收敛于 $0$ ；第二项因 $c_n-c\to 0$ 为常数，故 a.s. 收敛于 $0$ ，从而也依概率收敛于 $0$ 。因此

c_nX_n\xrightarrow{P}cX.

若 $X_n\xrightarrow{D}X$ ，则把 $c_n$ 看成常值随机变量，有 $c_n\xrightarrow{P}c$ 。由后面的 Slutsky 定理可得

c_nX_n\xrightarrow{D}cX.

题目：4.2.3

证明当 $n\to\infty$ 时，

X_n \xrightarrow{P} 0 \quad\Longleftrightarrow\quad \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0.

证明

若 $X_n \xrightarrow{P} 0$ ，则对任意 $\varepsilon>0$ ,

\begin{aligned} \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right] &= \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|<\varepsilon\right] + \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|\geq \varepsilon\right] \\ &\leq \varepsilon + \mathbb{P}(|X_n|\geq \varepsilon). \end{aligned}

令 $n\to\infty$ 后得

\limsup_{n\to\infty}\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\leq \varepsilon.

再令 $\varepsilon\downarrow 0$ ，便知

\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0.

反过来，若

\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right]\to 0,

则对任意 $\varepsilon>0$ ,

\mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}\right] \geq \mathbb{E}\!\left[\frac{|X_n|}{1+|X_n|}; |X_n|\geq \varepsilon\right] \geq \frac{\varepsilon}{1+\varepsilon}\mathbb{P}(|X_n|\geq \varepsilon).

因而 $\mathbb{P}(|X_n|\geq \varepsilon)\to 0$ ，即 $X_n\xrightarrow{P}0$ 。

题目：4.2.4

随机变量列 $\{X_n\}$ 、 $\{Y_n\}$ 满足 $X_n \xrightarrow{D} X$ 且 $Y_n \xrightarrow{P} c$ ，其中 $X$ 是随机变量， $c$ 为常数。证明

$1$ $X_n+Y_n \xrightarrow{D} X+c$ .

$2$ $X_nY_n \xrightarrow{D} cX$ ，且当 $c\neq 0$ 时有

\frac{X_n}{Y_n} \xrightarrow{D} \frac{X}{c}.

证明

(1) 与 (2) 的前半部分正是下述 Slutsky 定理在 $Z_n\equiv 0$ 时的结论，因此

X_n+Y_n\xrightarrow{D}X+c,\qquad X_nY_n\xrightarrow{D}cX.

当 $c\neq 0$ 时，由函数 $x\mapsto 1/x$ 在 $c$ 处连续可得

\frac{1}{Y_n}\xrightarrow{P}\frac{1}{c}.

再对随机变量列 $\{X_n\}$ 与 $\{1/Y_n\}$ 应用 Slutsky 定理，得到

\frac{X_n}{Y_n}=X_n\cdot \frac{1}{Y_n}\xrightarrow{D}\frac{X}{c}.

设随机变量列 $\{X_n\}$ 、 $\{Y_n\}$ 、 $\{Z_n\}$ 满足

X_n\xrightarrow{D}X,\qquad Y_n\xrightarrow{P}b,\qquad Z_n\xrightarrow{P}c,

其中 $X$ 为随机变量， $b,c$ 为常数，则

X_nY_n+Z_n\xrightarrow{D}bX+c.

特别地，

X_n+Y_n\xrightarrow{D}X+c,\qquad X_nY_n\xrightarrow{D}bX,

且当 $b\neq 0$ 时，

\frac{X_n}{Y_n}\xrightarrow{D}\frac{X}{b}.

证明

先证一个常用引理：若

U_n-V_n\xrightarrow{P}0,\qquad V_n\xrightarrow{D}V,

则 $U_n\xrightarrow{D}V$ 。

事实上，对任意 $\varepsilon>0$ 及 $V$ 的任一分布函数连续点 $x$ ，有

\{V_n\leq x-\varepsilon\}\cap\{|U_n-V_n|\leq \varepsilon\}\subset \{U_n\leq x\}

与

\{U_n\leq x\}\subset \{V_n\leq x+\varepsilon\}\cup \{|U_n-V_n|>\varepsilon\}.

因此

\mathbb{P}(V_n\leq x-\varepsilon)-\mathbb{P}(|U_n-V_n|>\varepsilon) \leq \mathbb{P}(U_n\leq x)

以及

\mathbb{P}(U_n\leq x) \leq \mathbb{P}(V_n\leq x+\varepsilon)+\mathbb{P}(|U_n-V_n|>\varepsilon).

令 $n\to\infty$ ，得到

F_V(x-\varepsilon)\leq \liminf_{n\to\infty}\mathbb{P}(U_n\leq x) \leq \limsup_{n\to\infty}\mathbb{P}(U_n\leq x)\leq F_V(x+\varepsilon).

再令 $\varepsilon\downarrow 0$ ，由 $x$ 的连续性可知

\mathbb{P}(U_n\leq x)\to F_V(x),

故 $U_n\xrightarrow{D}V$ 。

下面证明 Slutsky 定理。先看加法。由连续映射定理，

X_n+c\xrightarrow{D}X+c.

又因为

(X_n+Y_n)-(X_n+c)=Y_n-c\xrightarrow{P}0,

由上面的引理立得

X_n+Y_n\xrightarrow{D}X+c.

再看乘法。由 $X_n\xrightarrow{D}X$ 可知 $\{X_n\}$ 是紧的。于是对任意 $\varepsilon,\eta>0$ ，可取 $M>0$ 使得对充分大的 $n$ ,

\mathbb{P}(|X_n|>M)<\eta.

从而

\mathbb{P}\bigl(|X_n(Y_n-b)|>\varepsilon\bigr) \leq \mathbb{P}(|X_n|>M)+\mathbb{P}\!\left(|Y_n-b|>\frac{\varepsilon}{M}\right).

令 $n\to\infty$ 得

X_n(Y_n-b)\xrightarrow{P}0.

另一方面，由连续映射定理，

bX_n\xrightarrow{D}bX.

又

X_nY_n-bX_n=X_n(Y_n-b)\xrightarrow{P}0,

故再由引理，

X_nY_n\xrightarrow{D}bX.

最后，由 $X_nY_n\xrightarrow{D}bX$ 以及 $Z_n\xrightarrow{P}c$ ，将刚证明的加法情形应用于 $\{X_nY_n\}$ 与 $\{Z_n\}$ ，便得

X_nY_n+Z_n\xrightarrow{D}bX+c.

若 $b\neq 0$ ，则函数 $x\mapsto 1/x$ 在 $b$ 处连续，所以

\frac{1}{Y_n}\xrightarrow{P}\frac{1}{b}.

再将上面的乘法结论应用于 $X_n$ 与 $1/Y_n$ ，便得到

\frac{X_n}{Y_n}=X_n\cdot \frac{1}{Y_n}\xrightarrow{D}\frac{X}{b}.

习题4.3

旁注

Borel-Cantelli、子列原理和极值估计常一起出现。几乎处处结论通常要构造可求和的坏事件。

题目：4.3.1

设 $\{X_n\}$ 相互独立且服从标准正态分布，利用第 3 章问题第 14 题 (1) 的结论证明

\mathbb{P}\!\left(\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}=\sqrt{2}\right)=1.

证明

对任意 $a>0$ ，记

A_n(a)=\left\{X_n\geq \sqrt{2a\log n}\right\}.

由第 3 章问题第 14 题 (1) 的标准正态尾概率估计，存在正常数 $C_1,C_2$ ，使得对充分大的 $n$ ,

C_1\frac{n^{-a}}{\sqrt{\log n}} \leq \mathbb{P}(A_n(a)) \leq C_2\frac{n^{-a}}{\sqrt{\log n}}.

若 $0<a<1$ ，则

\sum_{n=2}^\infty \mathbb{P}(A_n(a))=\infty.

由于 $\{A_n(a)\}$ 相互独立，第二 Borel-Cantelli 引理给出

\mathbb{P}(A_n(a)\ \text{i.o.})=1.

这说明

\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}\geq \sqrt{2a} \qquad \text{a.s.}

若 $a>1$ ，则

\sum_{n=2}^\infty \mathbb{P}(A_n(a))<\infty,

故由第一 Borel-Cantelli 引理，

\mathbb{P}(A_n(a)\ \text{i.o.})=0,

即

\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}\leq \sqrt{2a} \qquad \text{a.s.}

因此对任意 $0<a<1<b$ ，几乎处处都有

\sqrt{2a} \leq \limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}} \leq \sqrt{2b}.

令 $a\uparrow 1$ 、 $b\downarrow 1$ ，便得

\limsup_{n\to\infty}\frac{X_n}{\sqrt{\log n}}=\sqrt{2} \qquad \text{a.s.}

题目：4.3.6

设随机变量 $X_1,\cdots,X_n$ 独立同分布，且服从 $[0,a]$ 上的均匀分布，其中 $a>0$ 。记

M_n=\max\{X_1,\cdots,X_n\},

分别在 a.s.、 $p$ 阶收敛的意义下证明当 $n\to\infty$ 时 $M_n\to a$ 。

证明

对任意 $0<\varepsilon<a$ ，有

\mathbb{P}(|M_n-a|>\varepsilon) =\mathbb{P}(M_n<a-\varepsilon) =\left(\frac{a-\varepsilon}{a}\right)^n.

因为

\sum_{n=1}^\infty \left(\frac{a-\varepsilon}{a}\right)^n<\infty,

由第一 Borel-Cantelli 引理可知

|M_n-a|>\varepsilon

只会发生有限次。对有理数 $\varepsilon>0$ 取可数交，即得

M_n\xrightarrow{\text{a.s.}} a.

又因为 $0\leq M_n\leq a$ ，故

|M_n-a|^p\leq a^p.

结合 $M_n\xrightarrow{\text{a.s.}}a$ ，由 DCT 可得

\mathbb{E}[|M_n-a|^p]\to 0.

因而

M_n\xrightarrow{L^p} a.

题目：4.3.7

随机变量列 $\{X_n\}$ 满足 $X_n \xrightarrow{P} X$ 。证明存在子列 $\{X_{n_k}\}$ 满足

X_{n_k} \xrightarrow{\text{a.s.}} X.

证明

由于 $X_n\xrightarrow{P}X$ ，对每个 $k\in\mathbb{N}^*$ 都可取 $n_k>n_{k-1}$ ，使得

\mathbb{P}\bigl(|X_{n_k}-X|>2^{-k}\bigr)<2^{-k}.

于是

\sum_{k=1}^\infty \mathbb{P}\bigl(|X_{n_k}-X|>2^{-k}\bigr)<\infty.

由第一 Borel-Cantelli 引理，事件

|X_{n_k}-X|>2^{-k}

只会发生有限次。故几乎处处存在 $K(\omega)$ ，使得当 $k\geq K(\omega)$ 时，

|X_{n_k}(\omega)-X(\omega)|\leq 2^{-k}.

于是 $X_{n_k}(\omega)\to X(\omega)$ ，即

X_{n_k}\xrightarrow{\text{a.s.}}X.

题目：4.3.8

$1$ 设 $\{X_n\}$ 是相互独立的实值随机变量列且满足 $X_n \xrightarrow{P} 0$ ， $\{a_n\}$ 为单调递增至 $+\infty$ 的正实数列。问

\frac{X_n}{a_n} \xrightarrow{\text{a.s.}} 0

是否成立？

$2$ 设 $\{X_n\}$ 是实值随机变量列，试构造正实数列 $\{c_n\}$ ，使得

\frac{X_n}{c_n} \xrightarrow{\text{a.s.}} 0.

证明

(1) 结论不一定成立。对给定的 $\{a_n\}$ ，定义独立随机变量

\mathbb{P}(X_n=a_n)=\frac{1}{n+1},\qquad \mathbb{P}(X_n=0)=1-\frac{1}{n+1}.

由于 $a_n\to\infty$ ，对任意 $\varepsilon>0$ ，当 $n$ 充分大时 $a_n>\varepsilon$ ，故

\mathbb{P}(|X_n|>\varepsilon)=\frac{1}{n+1}\to 0,

即 $X_n\xrightarrow{P}0$ 。但是

\mathbb{P}\!\left(\frac{X_n}{a_n}=1\right)=\frac{1}{n+1}, \qquad \sum_{n=1}^\infty \frac{1}{n+1}=\infty.

由第二 Borel-Cantelli 引理，

\frac{X_n}{a_n}=1

会发生无穷多次，故 $\frac{X_n}{a_n}$ 不 a.s. 收敛于 $0$ 。

$2$ 对每个 $n$ ，由 $\mathbb{P}(|X_n|>t)\downarrow 0\ (t\to\infty)$ ，可取 $c_n>0$ 使得

\mathbb{P}(|X_n|>2^{-n}c_n)<2^{-n}.

记

A_n=\{|X_n|>2^{-n}c_n\}.

则

\sum_{n=1}^\infty \mathbb{P}(A_n)<\infty.

由第一 Borel-Cantelli 引理， $A_n$ 只会发生有限次。故几乎处处存在 $N(\omega)$ ，使得当 $n\geq N(\omega)$ 时，

\left|\frac{X_n}{c_n}\right|\leq 2^{-n}.

因此

\frac{X_n}{c_n}\xrightarrow{\text{a.s.}}0.

习题4.4

旁注

强大数定律的证明常靠截断、四阶矩或 Borel-Cantelli。注意矩条件分别控制哪些尾事件。

题目：4.4.1

$\{X_n\}$ 为非负独立同分布随机变量列， $\mathbb{E}[X_1]=+\infty$ ，证明

\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} +\infty.

证明

对每个 $M>0$ ，令

Y_k^{(M)}=X_k\wedge M.

则 $\{Y_k^{(M)}\}$ 仍是非负独立同分布随机变量列，且 $\mathbb{E}[Y_1^{(M)}]<\infty$ 。由强大数定律，

\frac{1}{n}\sum_{k=1}^n Y_k^{(M)} \xrightarrow{\text{a.s.}} \mathbb{E}[Y_1^{(M)}].

又因 $X_k\geq Y_k^{(M)}$ ，故

\liminf_{n\to\infty}\frac{1}{n}\sum_{k=1}^n X_k \geq \lim_{n\to\infty}\frac{1}{n}\sum_{k=1}^n Y_k^{(M)} = \mathbb{E}[Y_1^{(M)}] \qquad \text{a.s.}

由于 $Y_1^{(M)}\uparrow X_1$ ，由 MCT，

\mathbb{E}[Y_1^{(M)}]\uparrow \mathbb{E}[X_1]=+\infty.

因而对任意 $L>0$ ，可取 $M$ 充分大使得 $\mathbb{E}[Y_1^{(M)}]\geq L$ 。于是

\liminf_{n\to\infty}\frac{1}{n}\sum_{k=1}^n X_k \geq L \qquad \text{a.s.}

由于 $L$ 任意，得到

\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} +\infty.

题目：4.4.2

（Weierstrass 逼近定理）任给连续函数 $f:[0,1]\to\mathbb{R}$ ，随机变量 $S_n$ 服从二项分布 $B(n,x)$ ，证明

\lim_{n\to+\infty}\sup_{0\leq x\leq 1}\left|f(x)-\sum_{k=0}^n f\!\left(\frac{k}{n}\right)\binom{n}{k}x^k(1-x)^{n-k}\right|=0.

证明

对固定的 $x\in[0,1]$ ，令 $S_n\sim B(n,x)$ 。则

\mathbb{P}(S_n=k)=\binom{n}{k}x^k(1-x)^{n-k},

因而

\sum_{k=0}^n f\!\left(\frac{k}{n}\right)\binom{n}{k}x^k(1-x)^{n-k} =\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right].

于是只需证明

\sup_{0\leq x\leq 1}\left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right|\to 0.

由于 $f$ 在 $[0,1]$ 上连续，故一致连续。任给 $\varepsilon>0$ ，存在 $\delta>0$ ，使得当 $|u-v|<\delta$ 时，

|f(u)-f(v)|<\varepsilon.

记 $M=\sup_{0\leq y\leq 1}|f(y)|$ 。则

\begin{aligned} \left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right| &\leq \mathbb{E}\!\left[\left|f\!\left(\frac{S_n}{n}\right)-f(x)\right|;\left|\frac{S_n}{n}-x\right|<\delta\right] \\ &\quad + \mathbb{E}\!\left[\left|f\!\left(\frac{S_n}{n}\right)-f(x)\right|;\left|\frac{S_n}{n}-x\right|\geq\delta\right] \\ &\leq \varepsilon + 2M\,\mathbb{P}\!\left(\left|\frac{S_n}{n}-x\right|\geq \delta\right). \end{aligned}

由 Chebyshev 不等式，

\mathbb{P}\!\left(\left|\frac{S_n}{n}-x\right|\geq \delta\right) \leq \frac{\operatorname{Var}(S_n/n)}{\delta^2} = \frac{x(1-x)}{n\delta^2} \leq \frac{1}{4n\delta^2}.

因而

\sup_{0\leq x\leq 1}\left|\mathbb{E}\!\left[f\!\left(\frac{S_n}{n}\right)\right]-f(x)\right| \leq \varepsilon + \frac{M}{2n\delta^2}.

令 $n\to\infty$ 后再令 $\varepsilon\downarrow 0$ ，即得结论。

题目：4.4.3

随机变量 $X_1,\cdots,X_n$ 独立同分布，满足 $\mathbb{E}[X_1]=0$ 、 $\mathbb{E}[X_1^4]<\infty$ 。不利用强大数定律的结论，直接证明

\frac{1}{n}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} 0.

证明

记

S_n=\sum_{k=1}^n X_k.

由于 $\mathbb{E}[X_1]=0$ ，由独立性展开四阶矩可得

\mathbb{E}[S_n^4] = n\mathbb{E}[X_1^4] + 6\binom{n}{2}\bigl(\mathbb{E}[X_1^2]\bigr)^2 = O(n^2).

因而存在常数 $C>0$ ，使得对所有 $n$ ,

\mathbb{E}[S_n^4]\leq Cn^2.

由 Markov 不等式，

\mathbb{P}\bigl(|S_n|>n\varepsilon\bigr) \leq \frac{\mathbb{E}[S_n^4]}{n^4\varepsilon^4} \leq \frac{C}{n^2\varepsilon^4}.

所以

\sum_{n=1}^\infty \mathbb{P}\bigl(|S_n|>n\varepsilon\bigr)<\infty.

由第一 Borel-Cantelli 引理，

\mathbb{P}\bigl(|S_n|>n\varepsilon\ \text{i.o.}\bigr)=0.

由于 $\varepsilon>0$ 任意，得到

\frac{S_n}{n}\xrightarrow{\text{a.s.}}0.

题目：4.4.4

设 $\{X_n\}$ 相互独立且服从参数为 $1$ 的指数分布。

$1$ 证明 $(X_1\cdots X_n)^{1/n}$ 几乎处处收敛，并求出收敛值。

$2$ 探索

\frac{n}{\frac{1}{X_1}+\cdots+\frac{1}{X_n}}

的极限分布。

证明

(1) 令 $Y_n=\log X_n$ 。由于 $X_n\sim \mathrm{Exp}(1)$ ，有

\mathbb{E}[|Y_1|]<\infty, \qquad \mathbb{E}[Y_1]=\int_0^\infty (\log x)e^{-x}\,dx=-\gamma,

其中 $\gamma$ 为 Euler 常数。由强大数定律，

\frac{1}{n}\sum_{k=1}^n Y_k \xrightarrow{\text{a.s.}} -\gamma.

因而

(X_1\cdots X_n)^{1/n} =\exp\!\left(\frac{1}{n}\sum_{k=1}^n Y_k\right) \xrightarrow{\text{a.s.}} e^{-\gamma}.

$2$ 令

Z_k=\frac{1}{X_k}.

则 $Z_k\geq 0$ 且 $\{Z_k\}$ 独立同分布。又

\mathbb{E}[Z_1]=\int_0^\infty \frac{1}{x}e^{-x}\,dx=+\infty.

由上一题结论，

\frac{1}{n}\sum_{k=1}^n Z_k \xrightarrow{\text{a.s.}} +\infty.

于是

\frac{n}{\frac{1}{X_1}+\cdots+\frac{1}{X_n}} =\left(\frac{1}{n}\sum_{k=1}^n Z_k\right)^{-1} \xrightarrow{\text{a.s.}} 0.

因而它的极限分布为退化分布 $\delta_0$ 。

题目：4.4.5

区间 $[0,1]$ 被划分成 $n$ 个互不相交的子区间之并，子区间长度分别为 $p_1,p_2,\cdots,p_n$ ，定义该划分的熵为

h=-\sum_{i=1}^n p_i\log p_i.

设 $X_1,X_2,\cdots,X_m$ 是相互独立且均服从 $[0,1]$ 上均匀分布的随机变量，定义 $Z_m(i)$ 是 $X_1,\cdots,X_m$ 中位于第 $i$ 个区间的总数，

R_m=\prod_{i=1}^n p_i^{Z_m(i)}.

证明当 $m\to\infty$ 时，

\frac{\log R_m}{m}\xrightarrow{\text{a.s.}}-h.

证明

对每个 $k$ ，定义

Y_k=\sum_{i=1}^n (\log p_i)\mathbf{1}_{\{X_k\text{ 落在第 }i\text{ 个区间}\}}.

则 $\{Y_k\}$ 独立同分布，且

\mathbb{P}(Y_k=\log p_i)=p_i,\qquad 1\leq i\leq n.

于是

\mathbb{E}[Y_1]=\sum_{i=1}^n p_i\log p_i=-h.

另一方面，

\log R_m=\sum_{i=1}^n Z_m(i)\log p_i=\sum_{k=1}^m Y_k.

由强大数定律，

\frac{\log R_m}{m} =\frac{1}{m}\sum_{k=1}^m Y_k \xrightarrow{\text{a.s.}} \mathbb{E}[Y_1] =-h.

题目：4.4.7

随机变量列 $\{X_k:k\geq 2\}$ 相互独立且满足

\mathbb{P}(X_k=2k)=\mathbb{P}(X_k=-2k)=\frac{1}{2k\log k}, \qquad \mathbb{P}(X_k=0)=1-\frac{1}{k\log k}.

记

S_n=X_2+\cdots+X_n,

证明

\frac{S_n}{n}\xrightarrow{P}0, \qquad \frac{S_n}{n(n-1)}\xrightarrow{\text{a.s.}}0,

但

\frac{S_n}{n}

不 a.s. 收敛于 $0$ 。

证明

先注意到

\mathbb{E}[X_k]=0,

且

\mathbb{E}[X_k^2] =4k^2\cdot \frac{1}{k\log k}+1-\frac{1}{k\log k} \leq C\frac{k}{\log k}.

因此

\operatorname{Var}\!\left(\frac{S_n}{n}\right) =\frac{1}{n^2}\sum_{k=2}^n \mathbb{E}[X_k^2].

又有

\sum_{k=2}^n \frac{k}{\log k} \leq \sum_{k\leq \sqrt n}\frac{k}{\log 2} +\sum_{k>\sqrt n}\frac{2k}{\log n} =O\!\left(\frac{n^2}{\log n}\right),

故

\operatorname{Var}\!\left(\frac{S_n}{n}\right)=O\!\left(\frac{1}{\log n}\right)\to 0.

由 Chebyshev 不等式，

\frac{S_n}{n}\xrightarrow{P}0.

再看几乎处处收敛。由上面的估计，

\operatorname{Var}(S_n)=\sum_{k=2}^n \mathbb{E}[X_k^2] =O\!\left(\frac{n^2}{\log n}\right).

故对任意 $\varepsilon>0$ ，由 Chebyshev 不等式，

\mathbb{P}\!\left(\left|\frac{S_n}{n(n-1)}\right|>\varepsilon\right) \leq \frac{\operatorname{Var}(S_n)}{\varepsilon^2n^2(n-1)^2} =O\!\left(\frac{1}{n^2\log n}\right).

因而

\sum_{n=2}^\infty \mathbb{P}\!\left(\left|\frac{S_n}{n(n-1)}\right|>\varepsilon\right)<\infty.

由第一 Borel-Cantelli 引理，

\frac{S_n}{n(n-1)}\xrightarrow{\text{a.s.}}0.

最后证明 $\frac{S_n}{n}$ 不 a.s. 收敛于 $0$ 。记

A_n=\{X_n=2n\}.

则 $\{A_n\}$ 相互独立，且

\sum_{n=2}^\infty \mathbb{P}(A_n) =\sum_{n=2}^\infty \frac{1}{2n\log n} =\infty.

由第二 Borel-Cantelli 引理， $A_n$ a.s. 无穷多次发生。若假设

\frac{S_n}{n}\xrightarrow{\text{a.s.}}0,

则

\frac{S_{n-1}}{n}=\frac{n-1}{n}\cdot \frac{S_{n-1}}{n-1}\xrightarrow{\text{a.s.}}0.

但在 $A_n$ 上，

\frac{S_n}{n}=\frac{S_{n-1}}{n}+2.

由于 $A_n$ 无穷多次发生，这与 $\frac{S_n}{n}\to 0$ 矛盾。故

\frac{S_n}{n}

不 a.s. 收敛于 $0$ 。

习题5.1

旁注

特征函数里，独立和对应乘积，线性变换对应缩放，分布收敛可由逐点收敛刻画。

题目：5.1.1

随机变量 $X$ 的密度

f(x)=\frac{1}{2}e^{-|x|}, \qquad -\infty<x<\infty,

求 $X$ 的特征函数。

证明

\begin{aligned} \phi_X(t) &= \mathbb{E}[e^{itX}] = \frac12\int_{-\infty}^\infty e^{itx-|x|}\,dx \\ &= \int_0^\infty e^{-x}\cos(tx)\,dx = \frac{1}{1+t^2}. \end{aligned}

题目：5.1.2

已知 $\{U,V\}$ 与 $\{X,Y\}$ 独立，令

Z=\frac{UX+VY}{\sqrt{U^2+V^2}}.

证明若 $X$ 与 $Y$ 独立且均服从 $N(0,1)$ ，则 $Z\sim N(0,1)$ 。若 $(X,Y)$ 服从标准二元正态分布，上述结论是否成立？

证明

若 $X,Y$ 独立且都服从 $N(0,1)$ ，则对任意固定的 $(u,v)\in\mathbb{R}^2$ ，

uX+vY\sim N(0,u^2+v^2).

因此在 $(U,V)=(u,v)$ 条件下，

Z\mid (U,V)=(u,v)\sim N(0,1).

也就是说，对任意 $t\in\mathbb{R}$ ,

\mathbb{E}\!\left[e^{itZ}\mid U,V\right]=e^{-t^2/2}.

再取期望，得到

\mathbb{E}[e^{itZ}]=e^{-t^2/2},

故 $Z\sim N(0,1)$ 。

若 $(X,Y)$ 只服从标准二元正态分布而不要求独立，则结论一般不成立。设

\operatorname{Cov}(X,Y)=\rho\neq 0,

并取 $U=V=1$ （常数），则

Z=\frac{X+Y}{\sqrt{2}}.

于是

\operatorname{Var}(Z)=\frac{1}{2}\operatorname{Var}(X+Y)=\frac{1}{2}(1+1+2\rho)=1+\rho\neq 1.

所以此时 $Z\not\sim N(0,1)$ 。因此一般情形下结论不成立。

题目：5.1.3

记

\phi(t)=\left(\frac{\sin t}{t}\right)^2.

试用概率方法证明对实数 $t_1,\cdots,t_n$ ，矩阵

H_n=\bigl(\phi(t_i-t_j)\bigr)_{i,j=1}^n

非负定。

证明

取独立同分布随机变量 $X,Y\sim U[-1,1]$ 。则

\phi_X(t)=\phi_Y(t)=\frac{\sin t}{t}.

因而

\phi_{X+Y}(t)=\phi_X(t)\phi_Y(t)=\left(\frac{\sin t}{t}\right)^2=\phi(t).

这说明 $\phi$ 是某个随机变量（即 $X+Y$ ）的特征函数。

于是对任意复数 $c_1,\cdots,c_n$ ，有

\begin{aligned} \sum_{i,j=1}^n c_i\overline{c_j}\phi(t_i-t_j) &= \sum_{i,j=1}^n c_i\overline{c_j}\,\mathbb{E}\!\left[e^{i(t_i-t_j)(X+Y)}\right] \\ &= \mathbb{E}\!\left[\left|\sum_{j=1}^n c_j e^{it_j(X+Y)}\right|^2\right] \\ &\geq 0. \end{aligned}

故矩阵 $H_n$ 非负定。

题目：5.1.5

设 $X_1,X_2,\cdots,X_n$ 为一族相互独立的随机变量，令

Y_n=X_1^2+X_2^2+\cdots+X_n^2.

$1$ 假设 $X_i\sim N(i,1)$ ，试求 $Y_n$ 的特征函数。

$2$ 假设 $X_i\sim N(1,1)$ 。若随机变量 $N\sim P(\lambda)$ ，且 $N$ 与 $X_i$ （ $i=1,2,\cdots$ ）均独立，试求 $Y_N$ 的特征函数。

证明

若 $X\sim N(\mu,1)$ ，则

\begin{aligned} \mathbb{E}[e^{itX^2}] &=\frac{1}{\sqrt{2\pi}}\int_{\mathbb{R}} \exp\!\left(itx^2-\frac{(x-\mu)^2}{2}\right)\,dx \\ &=\frac{1}{\sqrt{1-2it}} \exp\!\left(\frac{i\mu^2 t}{1-2it}\right). \end{aligned}

$1$ 由独立性，

\phi_{Y_n}(t) =\prod_{k=1}^n \mathbb{E}[e^{itX_k^2}] =(1-2it)^{-n/2} \exp\!\left(\frac{it}{1-2it}\sum_{k=1}^n k^2\right).

即

\phi_{Y_n}(t) =(1-2it)^{-n/2} \exp\!\left(\frac{it}{1-2it}\cdot \frac{n(n+1)(2n+1)}{6}\right).

$2$ 此时

\phi_{X_1^2}(t) =(1-2it)^{-1/2}\exp\!\left(\frac{it}{1-2it}\right).

条件于 $N=m$ 时，

\phi_{Y_N\mid N=m}(t)=\phi_{X_1^2}(t)^m.

因此

\phi_{Y_N}(t) =\mathbb{E}\!\left[\phi_{X_1^2}(t)^N\right] =\exp\!\left\{\lambda\bigl(\phi_{X_1^2}(t)-1\bigr)\right\}.

即

\phi_{Y_N}(t) =\exp\!\left\{\lambda\left((1-2it)^{-1/2}\exp\!\left(\frac{it}{1-2it}\right)-1\right)\right\}.

题目：5.1.7

设 $X_1,\cdots,X_n$ 独立同分布，记

S_n=X_1+\cdots+X_n.

$1$ 若矩母函数 $M(t)=\mathbb{E}[e^{tX_1}]$ 存在，证明尾概率估计

\mathbb{P}(X_1\geq a)\leq \inf_{t>0}\{e^{-at}M(t)\}.

$2$ 若 $\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac12$ ，试证明对任意 $a>0$ 均有

\mathbb{P}(S_n\geq a)\leq e^{-\frac{a^2}{2n}}.

证明

(1) 对任意 $t>0$ ，由 Markov 不等式，

\mathbb{P}(X_1\geq a) =\mathbb{P}(e^{tX_1}\geq e^{ta}) \leq e^{-ta}\mathbb{E}[e^{tX_1}] =e^{-ta}M(t).

再对 $t>0$ 取下确界即得

\mathbb{P}(X_1\geq a)\leq \inf_{t>0}\{e^{-at}M(t)\}.

$2$ 对任意 $t>0$ ，由 (1) 作用于 $S_n$ 得

\mathbb{P}(S_n\geq a)\leq e^{-at}\mathbb{E}[e^{tS_n}] =e^{-at}\bigl(\mathbb{E}[e^{tX_1}]\bigr)^n.

又

\mathbb{E}[e^{tX_1}]=\frac{e^t+e^{-t}}{2}=\cosh t.

并且

\cosh t =\sum_{m=0}^\infty \frac{t^{2m}}{(2m)!} \leq \sum_{m=0}^\infty \frac{(t^2/2)^m}{m!} =e^{t^2/2}.

因而

\mathbb{P}(S_n\geq a)\leq \exp\!\left(-at+\frac{nt^2}{2}\right).

取 $t=\frac{a}{n}$ ，得到

\mathbb{P}(S_n\geq a)\leq e^{-a^2/(2n)}.

题目：5.1.8

若随机变量 $X$ 的尾部概率对某正常数 $K$ 满足

\mathbb{P}(|X|\geq t)\leq 2e^{-t^2/K^2}, \qquad \forall t\geq 0,

则称 $X$ 为次高斯随机变量。证明

$1$ 若 $X$ 的矩母函数满足

\mathbb{E}[e^{sX}]\leq e^{s^2/2}, \qquad \forall s\in\mathbb{R},

则 $X$ 为次高斯随机变量。

$2$ 次高斯随机变量的矩满足不等式

\mathbb{E}[|X|^p]\leq (K_1\sqrt{p})^p, \qquad \forall p\geq 1.

这里 $K_1$ 为不依赖 $p$ 的正常数。提示：必要时可以利用 Stirling 公式

n!\sim n^n e^{-n}\sqrt{2\pi n}.

证明

(1) 对任意 $s,t>0$ ，由 Markov 不等式，

\mathbb{P}(X\geq t) =\mathbb{P}(e^{sX}\geq e^{st}) \leq e^{-st}\mathbb{E}[e^{sX}] \leq e^{-st+s^2/2}.

取 $s=t$ ，得

\mathbb{P}(X\geq t)\leq e^{-t^2/2}.

同理对 $-X$ 也有

\mathbb{P}(X\leq -t)\leq e^{-t^2/2}.

因而

\mathbb{P}(|X|\geq t)\leq 2e^{-t^2/2},

故 $X$ 为次高斯随机变量。

$2$ 由矩的尾积分公式，

\mathbb{E}[|X|^p] =\int_0^\infty pt^{p-1}\mathbb{P}(|X|>t)\,dt \leq 2p\int_0^\infty t^{p-1}e^{-t^2/K^2}\,dt.

作代换 $u=t^2/K^2$ ，得

\mathbb{E}[|X|^p] \leq pK^p\int_0^\infty u^{p/2-1}e^{-u}\,du =pK^p\Gamma(p/2) =2K^p\Gamma(p/2+1).

由 Stirling 公式，存在常数 $C>0$ ，使得对所有 $p\geq 1$ ,

\Gamma(p/2+1)\leq C^p p^{p/2}.

因而

\mathbb{E}[|X|^p]\leq (K_1\sqrt{p})^p

对某个与 $p$ 无关的常数 $K_1$ 成立。

习题5.2

旁注

这里看分布收敛和独立性的传递。Cauchy 例题提醒我们：没有一阶矩时不能套大数定律直觉。

题目：5.2.2

若 $X_n,Y_n$ 独立， $X,Y$ 也独立，且 $X_n\xrightarrow{D}X$ 、 $Y_n\xrightarrow{D}Y$ ，证明

X_n+Y_n\xrightarrow{D}X+Y.

证明

由独立性，

\phi_{X_n+Y_n}(t)=\phi_{X_n}(t)\phi_{Y_n}(t).

又因为 $X_n\xrightarrow{D}X$ 、 $Y_n\xrightarrow{D}Y$ ，故对任意 $t\in\mathbb{R}$ ,

\phi_{X_n}(t)\to \phi_X(t),\qquad \phi_{Y_n}(t)\to \phi_Y(t).

再由 $X,Y$ 独立，

\phi_X(t)\phi_Y(t)=\phi_{X+Y}(t).

因而

\phi_{X_n+Y_n}(t)\to \phi_{X+Y}(t).

由 Lévy 连续性定理，

X_n+Y_n\xrightarrow{D}X+Y.

题目：5.2.3

随机变量 $X_1,\cdots,X_n$ 相互独立且服从柯西分布，证明

\frac{1}{n}\sum_{k=1}^n X_k

亦服从柯西分布。

证明

先计算标准柯西分布的特征函数。若 $X$ 服从密度

f(x)=\frac{1}{\pi(1+x^2)},

则

\phi_X(t) =\frac{1}{\pi}\int_{-\infty}^{\infty}\frac{e^{itx}}{1+x^2}\,dx.

当 $t>0$ 时，考虑

g(z)=\frac{e^{itz}}{1+z^2},

并取上半平面的半圆轮廓。由 Jordan 引理，半圆弧上的积分趋于 $0$ 。轮廓内只有极点 $z=i$ ，且

\operatorname{Res}(g,i) =\lim_{z\to i}\frac{e^{itz}}{z+i} =\frac{e^{-t}}{2i}.

故由留数定理，

\int_{-\infty}^{\infty}\frac{e^{itx}}{1+x^2}\,dx =2\pi i\cdot \frac{e^{-t}}{2i} =\pi e^{-t}.

因而

\phi_X(t)=e^{-t},\qquad t>0.

又由于密度 $f$ 是偶函数，

\phi_X(t) =\frac{1}{\pi}\int_{-\infty}^{\infty}\frac{\cos(tx)}{1+x^2}\,dx,

从而 $\phi_X$ 是偶函数。故当 $t<0$ 时，

\phi_X(t)=\phi_X(-t)=e^{-(-t)}=e^t.

再加上 $\phi_X(0)=1$ ，综上

\phi_X(t)=e^{-|t|},\qquad t\in\mathbb{R}.

因而

\phi_{X_k/n}(t)=\phi_{X_k}\!\left(\frac{t}{n}\right)=e^{-|t|/n}.

由独立性，

\phi_{\frac{1}{n}\sum_{k=1}^n X_k}(t) = \prod_{k=1}^n \phi_{X_k/n}(t) = \left(e^{-|t|/n}\right)^n = e^{-|t|}.

这与标准柯西分布的特征函数相同，故

\frac{1}{n}\sum_{k=1}^n X_k

仍服从柯西分布。

题目：5.2.5

设 $\phi_n(t)=\cos^n t$ ， $t\in\mathbb{R}$ 。

$1$ 求特征函数 $\phi_2(t)$ 对应的分布函数；

$2$ 对一般的正整数 $n$ ， $\phi_n(t)$ 是否为特征函数？回答并给出理由。

证明

(1) 若定义随机变量 $X$ 满足

\mathbb{P}(X=-2)=\frac14,\qquad \mathbb{P}(X=0)=\frac12,\qquad \mathbb{P}(X=2)=\frac14,

则

\phi_X(t)=\frac14e^{-2it}+\frac12+\frac14e^{2it}=\cos^2 t.

因而 $\phi_2$ 对应的分布函数为

F_2(x)= \begin{cases} 0, & x<-2,\\ \frac14, & -2\leq x<0,\\ \frac34, & 0\leq x<2,\\ 1, & x\geq 2. \end{cases}

$2$ 对任意正整数 $n$ ，令 $Y_1,\cdots,Y_n$ 独立同分布，且

\mathbb{P}(Y_k=1)=\mathbb{P}(Y_k=-1)=\frac12.

则

\phi_{Y_k}(t)=\frac12(e^{it}+e^{-it})=\cos t.

于是由独立性，

\phi_{Y_1+\cdots+Y_n}(t)=\prod_{k=1}^n \phi_{Y_k}(t)=\cos^n t=\phi_n(t).

因而对任意正整数 $n$ ， $\phi_n(t)$ 都是特征函数。

习题5.3

旁注

中心极限定理题先确定中心化和标准化。方差随 $n$ 变时，尺度要先算清楚。

题目：5.3.1

试选择合适的数列 $\{\mu_n\}$ 、 $\{\sigma_n\}$ 证明

\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).

$1$ $X_n$ 服从参数为正整数 $n$ 的泊松分布；

$2$ $X_n$ 服从密度为

f(x)=\frac{x^{n-1}e^{-x}}{\Gamma(n)}\mathbf{1}_{x\geq 0}

的 $\Gamma$ 分布。

证明

(1) 若 $Y_1,\cdots,Y_n$ 独立同分布且 $Y_i\sim P(1)$ ，则

X_n' := Y_1+\cdots+Y_n \sim P(n),

即 $X_n'$ 与 $X_n$ 同分布。由 i.i.d. CLT，

\frac{X_n'-n}{\sqrt{n}} \xrightarrow{D} N(0,1).

因而取

\mu_n=n,\qquad \sigma_n=\sqrt{n},

就有

\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).

$2$ 若 $Z_1,\cdots,Z_n$ 独立同分布且每个 $Z_i$ 服从参数为 $1$ 的指数分布，则

X_n' := Z_1+\cdots+Z_n

的密度正是

f(x)=\frac{x^{n-1}e^{-x}}{\Gamma(n)}\mathbf{1}_{x\geq 0}.

于是 $X_n'$ 与 $X_n$ 同分布。再次由 i.i.d. CLT，

\frac{X_n'-n}{\sqrt{n}} \xrightarrow{D} N(0,1).

故同样取

\mu_n=n,\qquad \sigma_n=\sqrt{n},

即得

\frac{X_n-\mu_n}{\sigma_n}\xrightarrow{D}N(0,1).

题目：5.3.3

随机变量 $X_1,\cdots,X_n$ 独立同分布且满足

\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac12,

证明

\frac{\sqrt{3}}{n^{3/2}}\sum_{k=1}^n kX_k \xrightarrow{D} N(0,1).

证明

记

Y_{n,k}=kX_k,\qquad 1\leq k\leq n.

则 $\{Y_{n,k}\}_{k=1}^n$ 相互独立，且

\mathbb{E}[Y_{n,k}]=0,\qquad \operatorname{Var}(Y_{n,k})=k^2.

令

B_n^2=\sum_{k=1}^n \operatorname{Var}(Y_{n,k})=\sum_{k=1}^n k^2=\frac{n(n+1)(2n+1)}{6}.

对任意 $\varepsilon>0$ ，当 $n$ 充分大时，由于 $B_n\asymp n^{3/2}$ ，便有

|Y_{n,k}|=k\leq n<\varepsilon B_n,\qquad 1\leq k\leq n.

从而

\sum_{k=1}^n \mathbb{E}\!\left[Y_{n,k}^2; |Y_{n,k}|>\varepsilon B_n\right]=0,

所以 Lindeberg 条件显然成立。由 Lindeberg-Feller CLT，

\frac{\sum_{k=1}^n kX_k}{B_n}\xrightarrow{D}N(0,1).

又

\frac{B_n}{n^{3/2}} = \sqrt{\frac{(n+1)(2n+1)}{6n^2}} \longrightarrow \frac{1}{\sqrt{3}},

因而

\frac{\sqrt{3}}{n^{3/2}}\sum_{k=1}^n kX_k \xrightarrow{D} N(0,1).

习题5.5

旁注

Slutsky 定理用于把随机误差替换为常数极限；关键是加数或乘数是否依概率收敛到常数。

题目：5.5.12

Slutsky 定理的叙述如下：设随机变量 $\{X_n\}$ 、 $\{Y_n\}$ 、 $\{Z_n\}$ 满足

X_n\xrightarrow{D}X,\qquad Y_n\xrightarrow{P}b,\qquad Z_n\xrightarrow{P}c,

其中 $X$ 为随机变量， $b,c$ 为常数，则

X_nY_n+Z_n \xrightarrow{D} bX+c.

试利用 Slutsky 定理回答如下问题：

$1$ 设随机变量列 $\{X_n\}$ 独立同分布， $\mathbb{E}[X_1]=0$ 且二阶矩有限，令

\overline{X}=\frac{1}{n}\sum_{k=1}^n X_k,

证明

\frac{\sum_{k=1}^n X_k}{\sqrt{\sum_{k=1}^n (X_k-\overline{X})^2}}\xrightarrow{D}N(0,1).

$2$ 随机变量列 $\{X_n\}$ 相互独立且满足

\mathbb{P}(X_n=\pm 2^n)=\frac{1}{2^{n+1}}, \qquad \mathbb{P}(X_n=\pm 1)=\frac12-\frac{1}{2^{n+1}},

证明

\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k \xrightarrow{D} N(0,1).

$3$ 随机变量列 $\{X_n\}$ 独立同分布，且满足 $\mathbb{E}[X_1]=\operatorname{Var}(X_1)=1$ 。记

S_n=\sum_{k=1}^n X_k,

证明

\frac{S_n^{3/2}-n^{3/2}}{\frac{3}{2}n}\xrightarrow{D}N(0,1).

证明

(1) 记 $\sigma^2=\operatorname{Var}(X_1)$ 。由 CLT，

\frac{\sum_{k=1}^n X_k}{\sigma\sqrt{n}}\xrightarrow{D}N(0,1).

又

\frac{1}{n}\sum_{k=1}^n (X_k-\overline{X})^2 =\frac{1}{n}\sum_{k=1}^n X_k^2-\overline{X}^{\,2}.

由弱大数定律，

\frac{1}{n}\sum_{k=1}^n X_k^2\xrightarrow{P}\mathbb{E}[X_1^2]=\sigma^2, \qquad \overline{X}\xrightarrow{P}0.

因而

\frac{1}{n}\sum_{k=1}^n (X_k-\overline{X})^2\xrightarrow{P}\sigma^2, \qquad \frac{\sigma}{\sqrt{\frac1n\sum_{k=1}^n (X_k-\overline{X})^2}}\xrightarrow{P}1.

于是由 Slutsky 定理，

\frac{\sum_{k=1}^n X_k}{\sqrt{\sum_{k=1}^n (X_k-\overline{X})^2}} =\frac{\sum_{k=1}^n X_k}{\sigma\sqrt{n}}\cdot \frac{\sigma}{\sqrt{\frac1n\sum_{k=1}^n (X_k-\overline{X})^2}} \xrightarrow{D}N(0,1).

$2$ 不妨设

X_k=(1-B_k)\varepsilon_k+B_k2^k\eta_k,

其中 $\{B_k\}$ 、 $\{\varepsilon_k\}$ 、 $\{\eta_k\}$ 相互独立，且

\mathbb{P}(B_k=1)=2^{-k},\qquad \mathbb{P}(\varepsilon_k=\pm1)=\mathbb{P}(\eta_k=\pm1)=\frac12.

这样定义的 $X_k$ 正好具有题中的分布。记

T_n=\sum_{k=1}^n \varepsilon_k,\qquad R_n=\sum_{k=1}^n B_k(2^k\eta_k-\varepsilon_k).

则

\sum_{k=1}^n X_k=T_n+R_n.

又因为

\sum_{k=1}^\infty \mathbb{P}(B_k=1)=\sum_{k=1}^\infty 2^{-k}<\infty,

由第一 Borel-Cantelli 引理，事件 $\{B_k=1\}$ 只会发生有限次。故 $R_n$ a.s. 最终为常数，从而

\frac{R_n}{\sqrt{n}}\xrightarrow{\text{a.s.}}0.

另一方面，由 CLT，

\frac{T_n}{\sqrt{n}}\xrightarrow{D}N(0,1).

因此由 Slutsky 定理，

\frac{1}{\sqrt{n}}\sum_{k=1}^n X_k =\frac{T_n}{\sqrt{n}}+\frac{R_n}{\sqrt{n}} \xrightarrow{D}N(0,1).

$3$ 记

T_n=\frac{S_n-n}{\sqrt{n}},\qquad U_n=\frac{S_n}{n}.

由 CLT，

T_n\xrightarrow{D}N(0,1),

由弱大数定律，

U_n\xrightarrow{P}1.

又

\frac{S_n^{3/2}-n^{3/2}}{\frac32 n} =T_n\cdot \frac{2}{3}\cdot \frac{U_n^{3/2}-1}{U_n-1}.

记

g(u)=\frac{2}{3}\cdot \frac{u^{3/2}-1}{u-1}\quad (u\neq 1),\qquad g(1)=1.

则 $g$ 在 $u=1$ 处连续，故

g(U_n)\xrightarrow{P}1.

再由 Slutsky 定理，

\frac{S_n^{3/2}-n^{3/2}}{\frac32 n}\xrightarrow{D}N(0,1).

习题5.4

旁注

这一节进入更强的极限定理和 Stein 方法。读证明时区分弱收敛、矩界和可积性各自用在哪里。

题目：5.4.1

随机变量 $X_1,X_2,\dots$ 独立同分布， $\mathbb{P}(X_1=1)=\mathbb{P}(X_1=-1)=\frac{1}{2}$ ，证明对任意 $\delta>0$ 均有

\frac{1}{n^{1/2+\delta}}\sum_{k=1}^n X_k \xrightarrow{\text{a.s.}} 0.

证明

如果只用Chebyshev不等式，你会发现只能做到 $\delta > 1 /2$ 。我们尝试使用更高阶矩。待定正整数 $m$ 。记

S_n=\sum_{k=1}^n X_k.

对任意 $\varepsilon>0$ ，由 Markov 不等式，

\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right)=\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|^{2m}>\varepsilon^{2m}\right) \leq \frac{\mathbb{E}|S_n|^{2m}}{\varepsilon^{2m}n^{m+2m\delta}}.

下面估计 $\mathbb{E}|S_n|^{2m}$ 。展开得

\mathbb{E}S_n^{2m} = \sum_{i_1,\dots,i_{2m}=1}^n \mathbb{E}(X_{i_1}\cdots X_{i_{2m}}).

由于 $X_i$ 独立且 $\mathbb{E}X_i=0$ ，若某个指标只出现奇数次，则该项期望为 $0$ 。因此非零项中出现的不同指标个数至多为 $m$ 。于是存在只依赖于 $m$ 的常数 $C_m$ ，使得

\mathbb{E}S_n^{2m}\le C_m n^m.

从而

\mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right) \le \frac{C_m}{\varepsilon^{2m}}\, n^{-2m\delta}.

选取正整数 $m$ 使得

2m\delta>1.

则

\sum_{n=1}^\infty \mathbb{P}\left(\left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon\right) <\infty.

由 Borel-Cantelli 引理，

\mathbb{P}\left( \left|\frac{S_n}{n^{1/2+\delta}}\right|>\varepsilon \ \text{i.o.} \right)=0.

因此对任意固定的 $\varepsilon>0$ ，几乎必然存在 $N(\omega)$ ，使得当 $n\ge N(\omega)$ 时，

\left|\frac{S_n}{n^{1/2+\delta}}\right|\le \varepsilon.

再令 $\varepsilon$ 取所有正有理数，即得

\frac{S_n}{n^{1/2+\delta}}\xrightarrow{\mathrm{a.s.}}0.

题目：5.4.4

设 $\{X_k\}$ 为独立同分布随机变量列，

\mathbb{E}X_1=0,\qquad \operatorname{Var}(X_1)=1,\qquad \mathbb{E}|X_1|^3<\infty.

试用 Lindeberg 替换法证明 CLT 的收敛速度

\sup_{t\in\mathbb{R}} \left| \mathbb{P}\left(\frac{1}{\sqrt n}\sum_{k=1}^n X_k\le t\right) -\Phi(t) \right| = O(n^{-1/8}).

这里 $\Phi(t)$ 表示标准正态分布函数。

证明

记

S_n=\sum_{k=1}^n X_k, \qquad W_n=\frac{S_n}{\sqrt n}.

令 $Y_1,\dots,Y_n$ 为独立同分布的标准正态随机变量，并且与 $X_1,\dots,X_n$ 独立。记

Z_n=\frac{1}{\sqrt n}\sum_{k=1}^n Y_k.

则 $Z_n\sim N(0,1)$ ，所以

\mathbb{P}(Z_n\le t)=\Phi(t).

取 $\varepsilon>0$ 。存在光滑函数 $f_{t,\varepsilon}\in C^3(\mathbb R)$ ，使得

1_{\{x\le t\}}\le f_{t,\varepsilon}(x)\le 1_{\{x\le t+\varepsilon\}},

且

\|f_{t,\varepsilon}^{(3)}\|_\infty\le C\varepsilon^{-3},

其中常数 $C$ 与 $t,\varepsilon,n$ 无关。

下面估计

\left|\mathbb{E}f_{t,\varepsilon}(W_n) - \mathbb{E}f_{t,\varepsilon}(Z_n)\right|.

逐个将 $X_k$ 替换为 $Y_k$ 。令

T_k= \frac{1}{\sqrt n} \left( Y_1+\cdots+Y_{k-1} + X_{k+1}+\cdots+X_n \right).

则 $T_k$ 与 $X_k,Y_k$ 独立。由 Taylor 展开，

f_{t,\varepsilon}\left(T_k+\frac{X_k}{\sqrt n}\right) = f_{t,\varepsilon}(T_k) + \frac{X_k}{\sqrt n}f_{t,\varepsilon}'(T_k) + \frac{X_k^2}{2n}f_{t,\varepsilon}''(T_k) + R_{k,X},

其中

|R_{k,X}| \le \frac{\|f_{t,\varepsilon}^{(3)}\|_\infty}{6} \frac{|X_k|^3}{n^{3/2}}.

同理，

f_{t,\varepsilon}\left(T_k+\frac{Y_k}{\sqrt n}\right) = f_{t,\varepsilon}(T_k) + \frac{Y_k}{\sqrt n}f_{t,\varepsilon}'(T_k) + \frac{Y_k^2}{2n}f_{t,\varepsilon}''(T_k) + R_{k,Y},

且

|R_{k,Y}| \le \frac{\|f_{t,\varepsilon}^{(3)}\|_\infty}{6} \frac{|Y_k|^3}{n^{3/2}}.

因为

\mathbb{E}X_k=\mathbb{E}Y_k=0, \qquad \mathbb{E}X_k^2=\mathbb{E}Y_k^2=1,

且 $T_k$ 与 $X_k,Y_k$ 独立，所以一阶项和二阶项在取期望后相消。因此

\left| \mathbb{E}f_{t,\varepsilon}\left(T_k+\frac{X_k}{\sqrt n}\right) - \mathbb{E}f_{t,\varepsilon}\left(T_k+\frac{Y_k}{\sqrt n}\right) \right| \le C\varepsilon^{-3}n^{-3/2}.

将 $k=1,\dots,n$ 相加，得到

\left|\mathbb{E}f_{t,\varepsilon}(W_n) - \mathbb{E}f_{t,\varepsilon}(Z_n)\right| \le C\varepsilon^{-3}n^{-1/2}.

于是

\mathbb{P}(W_n\le t) \le \mathbb{E}f_{t,\varepsilon}(W_n) \le \mathbb{E}f_{t,\varepsilon}(Z_n) + C\varepsilon^{-3}n^{-1/2}.

又因为

f_{t,\varepsilon}(x)\le 1_{\{x\le t+\varepsilon\}},

所以

\mathbb{E}f_{t,\varepsilon}(Z_n) \le \mathbb{P}(Z_n\le t+\varepsilon) = \Phi(t+\varepsilon).

因此

\mathbb{P}(W_n\le t)-\Phi(t) \le \Phi(t+\varepsilon)-\Phi(t) + C\varepsilon^{-3}n^{-1/2}.

由于标准正态密度有界，

\Phi(t+\varepsilon)-\Phi(t)\le C\varepsilon,

故

\mathbb{P}(W_n\le t)-\Phi(t) \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

另一方面，同理取光滑函数满足

1_{\{x\le t-\varepsilon\}} \le g_{t,\varepsilon}(x) \le 1_{\{x\le t\}}, \qquad \|g_{t,\varepsilon}^{(3)}\|_\infty\le C\varepsilon^{-3}.

重复上述 Lindeberg 替换，得到

\left| \mathbb{E}g_{t,\varepsilon}(W_n) - \mathbb{E}g_{t,\varepsilon}(Z_n) \right| \le C\varepsilon^{-3}n^{-1/2}.

因此

\mathbb{P}(W_n\le t) \ge \mathbb{E}g_{t,\varepsilon}(W_n) \ge \mathbb{E}g_{t,\varepsilon}(Z_n) - C\varepsilon^{-3}n^{-1/2}.

又

\mathbb{E}g_{t,\varepsilon}(Z_n) \ge \mathbb{P}(Z_n\le t-\varepsilon) = \Phi(t-\varepsilon),

所以

\Phi(t)-\mathbb{P}(W_n\le t) \le \Phi(t)-\Phi(t-\varepsilon) + C\varepsilon^{-3}n^{-1/2} \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

综上，对任意 $t\in\mathbb R$ ，

\left| \mathbb{P}(W_n\le t)-\Phi(t) \right| \le C\varepsilon+C\varepsilon^{-3}n^{-1/2}.

取

\varepsilon=n^{-1/8},

得

\left| \mathbb{P}(W_n\le t)-\Phi(t) \right| \le Cn^{-1/8}.

因此

\sup_{t\in\mathbb R} \left| \mathbb{P}\left(\frac{1}{\sqrt n}\sum_{k=1}^n X_k\le t\right) - \Phi(t) \right| = O(n^{-1/8}).

注

核心是：先用光滑函数近似指标函数，再逐个把 $X_i$ 替换成正态变量 $Y_i$ 。因为 $X_i$ 与 $Y_i$ 的前两阶矩相同，Taylor 展开中的一阶、二阶项会相消，只剩三阶余项。平滑误差为 $O(\varepsilon)$ ，替换误差为 $O(\varepsilon^{-3}n^{-1/2})$ ，取 $\varepsilon=n^{-1/8}$ 即得结论。

题目：5.4.5

$\{X_n\}$ 为独立同分布的随机变量列，

\mathbb{E}X_1=0,\qquad \mathbb{E}X_1^2=1,

且对所有 $l\ge 3$ 均有

\mathbb{E}|X_1|^l<\infty.

令

S_n=X_1+\cdots+X_n.

令 $H_k(x)$ 是 $k$ 阶 Hermite 多项式，即满足

H_0=1,\qquad (-1)^kH_k(x)\phi(x)=\phi^{(k)}(x),

其中 $\phi$ 是标准正态分布的密度函数。求证：

\lim_{n\to\infty} \mathbb{E}\left[ H_k\left(\frac{S_n}{\sqrt n}\right) \right] =0,\qquad \forall k\ge 1.

证明

记

W_n=\frac{S_n}{\sqrt n}.

我们先证明：对任意固定的正整数 $j$ ，有

\lim_{n\to\infty}\mathbb{E}W_n^j = \mathbb{E}Z^j,

其中 $Z\sim N(0,1)$ 。

展开得

\mathbb{E}W_n^j = n^{-j/2} \sum_{i_1,\dots,i_j=1}^n \mathbb{E}(X_{i_1}\cdots X_{i_j}).

由于 $\mathbb{E}X_1=0$ 且 $X_i$ 独立，若某个指标只出现一次，则对应项期望为 $0$ 。

因此非零项中，每个出现的指标至少出现两次。若出现了 $r$ 个不同指标，则

r\le \frac j2.

当 $r<j/2$ 时，这类项的总贡献至多为

O(n^r)n^{-j/2}=o(1).

所以极限只可能来自 $r=j/2$ 的情形。这要求 $j$ 为偶数，并且每个出现的指标恰好出现两次。设 $j=2m$ ，则这种配对方式共有

(2m-1)!!

种，且每一项的期望为

\mathbb{E}X_1^2\cdots \mathbb{E}X_m^2=1.

因此

\lim_{n\to\infty}\mathbb{E}W_n^{2m} = (2m-1)!!.

若 $j$ 为奇数，则不存在 $r=j/2$ 的情形，故

\lim_{n\to\infty}\mathbb{E}W_n^j=0.

这正是标准正态随机变量 $Z$ 的各阶矩，因此

\lim_{n\to\infty}\mathbb{E}W_n^j = \mathbb{E}Z^j.

由于 $H_k(x)$ 是一个 $k$ 次多项式，可写为

H_k(x)=\sum_{j=0}^k a_jx^j.

于是由上面的矩收敛，

\lim_{n\to\infty} \mathbb{E}H_k(W_n) = \sum_{j=0}^k a_j\lim_{n\to\infty}\mathbb{E}W_n^j = \sum_{j=0}^k a_j\mathbb{E}Z^j = \mathbb{E}H_k(Z).

最后计算 $\mathbb{E}H_k(Z)$ 。由 $Z\sim N(0,1)$ ，

\mathbb{E}H_k(Z) = \int_{-\infty}^{\infty}H_k(x)\phi(x)\,dx.

根据 Hermite 多项式的定义，

H_k(x)\phi(x)=(-1)^k\phi^{(k)}(x).

因此

\mathbb{E}H_k(Z) = (-1)^k \int_{-\infty}^{\infty}\phi^{(k)}(x)\,dx.

当 $k\ge 1$ 时，

\int_{-\infty}^{\infty}\phi^{(k)}(x)\,dx = \phi^{(k-1)}(\infty)-\phi^{(k-1)}(-\infty) = 0.

故

\mathbb{E}H_k(Z)=0,\qquad k\ge 1.

从而

\lim_{n\to\infty} \mathbb{E}\left[ H_k\left(\frac{S_n}{\sqrt n}\right) \right] = 0,\qquad \forall k\ge 1.

注

本题想法是先证明 $S_n/\sqrt n$ 的固定阶矩收敛到标准正态矩。展开矩时，由于 $\mathbb{E}X_i=0$ ，只有指标成对出现的项在极限中保留下来，这正对应正态分布的矩。又因为 $H_k$ 是多项式，所以可由矩收敛推出 $\mathbb{E}H_k(S_n/\sqrt n)\to \mathbb{E}H_k(Z)$ 。最后利用 Hermite 多项式在标准正态下满足 $\mathbb{E}H_k(Z)=0$ 。

题目：5.4.8

（Stein 方法）试证明

X\sim N(0,1)

当且仅当对任意有界连续函数 $g$ ，若其导数 $g'$ 也有界连续，则总有

\mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)].

提示：对标准正态分布 $Z$ 和有界连续函数 $h$ ，构造一个新的函数

g_0(x) = e^{x^2/2} \int_{-\infty}^x e^{-y^2/2}\bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.

证明

先证必要性。若 $X\sim N(0,1)$ ，其密度为

\phi(x)=\frac{1}{\sqrt{2\pi}}e^{-x^2/2}.

因为

\phi'(x)=-x\phi(x),

所以

\mathbb{E}[Xg(X)] = \int_{-\infty}^{\infty}xg(x)\phi(x)\,dx = -\int_{-\infty}^{\infty}g(x)\phi'(x)\,dx.

对右边分部积分，得

-\int_{-\infty}^{\infty}g(x)\phi'(x)\,dx = -\Bigl[g(x)\phi(x)\Bigr]_{-\infty}^{\infty} + \int_{-\infty}^{\infty}g'(x)\phi(x)\,dx.

由于 $g$ 有界且 $\phi(x)\to 0$ ，边界项为 $0$ 。因此

\mathbb{E}[Xg(X)] = \mathbb{E}[g'(X)].

下面证充分性。设对任意有界连续 $g$ ，且 $g'$ 有界连续时，都有

\mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)].

我们要证明 $X\sim N(0,1)$ 。

令 $Z\sim N(0,1)$ 。任取有界连续函数 $h$ ，定义

g_0(x) = e^{x^2/2} \int_{-\infty}^x e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.

由于

\int_{-\infty}^{\infty} e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy =0,

也可写为

g_0(x) = -e^{x^2/2} \int_x^\infty e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy.

由标准正态尾部估计可知， $g_0$ 有界连续，且其导数也有界连续。

对 $g_0$ 求导：

g_0'(x) = x e^{x^2/2} \int_{-\infty}^x e^{-y^2/2} \bigl(h(y)-\mathbb{E}h(Z)\bigr)\,dy + h(x)-\mathbb{E}h(Z).

因此

g_0'(x) = xg_0(x)+h(x)-\mathbb{E}h(Z),

即

g_0'(x)-xg_0(x) = h(x)-\mathbb{E}h(Z).

由假设，将 $g=g_0$ 代入，得到

\mathbb{E}[Xg_0(X)] = \mathbb{E}[g_0'(X)].

因此

\mathbb{E}\bigl[g_0'(X)-Xg_0(X)\bigr]=0.

由上面的 Stein 方程，

g_0'(X)-Xg_0(X) = h(X)-\mathbb{E}h(Z).

所以

\mathbb{E}h(X)-\mathbb{E}h(Z)=0.

即

\mathbb{E}h(X)=\mathbb{E}h(Z)

对任意有界连续函数 $h$ 成立。

因此 $X$ 与 $Z$ 分布相同，即

X\sim N(0,1).

综上，命题得证。

注

本题的核心是 Stein 方法中的一个基本刻画：

X\sim N(0,1) \quad\Longleftrightarrow\quad \mathbb{E}[Xg(X)]=\mathbb{E}[g'(X)]

对足够多的测试函数 $g$ 成立。

必要性来自正态密度的特殊性质

\phi'(x)=-x\phi(x),

因此可以通过分部积分把 $\mathbb{E}[Xg(X)]$ 转化为 $\mathbb{E}[g'(X)]$ 。

充分性更有技巧。我们想证明 $X$ 和标准正态 $Z$ 分布相同，只需证明对任意有界连续函数 $h$ ，都有

\mathbb{E}h(X)=\mathbb{E}h(Z).

为此构造一个函数 $g_0$ ，使它满足 Stein 方程

g_0'(x)-xg_0(x)=h(x)-\mathbb{E}h(Z).

然后将 $g_0$ 代入假设

\mathbb{E}[Xg_0(X)]=\mathbb{E}[g_0'(X)],

就得到

\mathbb{E}h(X)=\mathbb{E}h(Z).

所以 $X$ 必为标准正态分布。这个方法的强大之处在于：它把"证明分布接近正态"转化成了"估计 Stein 方程两边的误差"。

不光是正态分布，其他一些经典分布也有类似的 Stein 刻画，比如指数分布、泊松分布等。通过构造合适的 Stein 方程，可以得到这些分布的刻画，从而在证明极限定理时提供了一个强有力的工具。举个例子，值得同学们思考：

（指数分布的 Stein 刻画）设 $\lambda>0$ ， $W$ 是取值于 $(0,\infty)$ 的连续型随机变量，具有密度 $q$ 。证明：在适当正则条件下，

W\sim \operatorname{Exp}(\lambda)

当且仅当对任意 $f\in C_c^1(0,\infty)$ ，均有

\mathbb{E}f'(W)=\lambda\mathbb{E}f(W).

拓展：从 χ² 分布到 Wishart 分布

阅读路线

概率论里的分布已经够多了，再多两个也无妨。下面这条路径值得探究：

\text{正态样本} \quad\Longrightarrow\quad \text{正交分解} \quad\Longrightarrow\quad \text{平方和 / 外积和}.

一维时，沿着这条路走，我们得到了 $\chi^2$ 分布，也解释了为什么 $\bar X$ 和 $s^2$ 独立。多维时，我们又会得到什么呢？

1. 一维情形：平方和少一个方向

先回顾一下课程讲义中的“边角料”。若

Z_1,\ldots,Z_\nu\stackrel{\mathrm{iid}}{\sim}N(0,1),

则

\sum_{i=1}^{\nu}Z_i^2\sim \chi^2_\nu.

这就是标准正态向量在 $\mathbb R^\nu$ 中的长度平方。换句话说， $\chi^2_\nu$ 可以看成 $\nu$ 个独立标准正态平方和，也可以看成一个随机半径的平方。

再回顾一下我们熟悉的正态样本结论。若

X_1,\ldots,X_n\stackrel{\mathrm{iid}}{\sim}N(\mu,\sigma^2), \qquad s^2=\frac1{n-1}\sum_{i=1}^{n}(X_i-\bar X)^2,

则

\bar X\perp\!\!\!\perp s^2, \qquad \frac{(n-1)s^2}{\sigma^2}\sim \chi^2_{n-1}.

这里的 $n-1$ 不是凭空产生的：事实上，样本向量

(X_1-\mu,\ldots,X_n-\mu)

本来在 $n$ 维空间里，但样本均值对应的是一个特殊方向：

\operatorname{span}\{(1,\ldots,1)\}.

减去 $\bar X$ 之后，残差向量

(X_1-\bar X,\ldots,X_n-\bar X)

和这个方向正交，所以只剩下 $(n-1)$ 维空间。把残差向量的长度平方除以 $\sigma^2$ ，得到的就是 $\chi^2_{n-1}$ 。

这里用到两个正态分布的事实：第一，标准正态向量经过正交旋转后分布不变；第二，对正态向量来说，正交分量不仅不相关，而且独立。第二点是正态分布的独特性质。

所以 $n-1$ 的几何来源很简单：估计均值占掉了样本空间里的一个方向。

2. p 维情形会怎样？

现在把每个观测从一个数换成一个 $p$ 维向量（注：我们经常使用 $p$ 表征维度，尤其是高维情形）。设

Y_1,\ldots,Y_\nu\stackrel{\mathrm{iid}}{\sim}N_p(0,\Sigma).

在矩阵里，“平方”的自然版本不是 $Y_i^2$ ，而是外积

Y_iY_i^\top.

于是平方和的矩阵版本就是

W=\sum_{i=1}^{\nu}Y_iY_i^\top.

我们记

W\sim W_p(\Sigma,\nu),

称它服从尺度矩阵为 $\Sigma$ 、自由度为 $\nu$ 的 Wishart 分布。

这个定义和 $\chi^2_\nu$ 是同一想法。若 $p=1$ ，则 $Y_i$ 只是一个标量，且 $Y_i\sim N(0,\sigma^2)$ 。此时

W=\sum_{i=1}^{\nu}Y_i^2 =\sigma^2\sum_{i=1}^{\nu}Z_i^2 \sim \sigma^2\chi^2_\nu.

所以 Wishart 分布不过是 $\chi^2$ 分布的推广。

例如 $p=2$ 时，

W= \begin{pmatrix} \sum_i Y_{i1}^2 & \sum_i Y_{i1}Y_{i2}\\ \sum_i Y_{i1}Y_{i2} & \sum_i Y_{i2}^2 \end{pmatrix}.

对角线记录每个方向上的平方和，非对角线记录两个方向之间的交叉项。 $\chi^2$ 只看长度；Wishart 还把方向之间的关系也记了下来。

3. 主定理：样本协方差矩阵服从 Wishart 分布

设

X_1,\ldots,X_n\stackrel{\mathrm{iid}}{\sim}N_p(\mu,\Sigma),

并定义样本均值向量和样本协方差矩阵

\bar X=\frac1n\sum_{i=1}^{n}X_i, \qquad S=\frac1{n-1}\sum_{i=1}^{n}(X_i-\bar X)(X_i-\bar X)^\top.

则

(n-1)S\sim W_p(\Sigma,n-1), \qquad \bar X\perp\!\!\!\perp S.

若 $n-1<p$ ，这个分布奇异：矩阵 $(n-1)S$ 的秩至多为 $n-1$ ，因此不可能正定。上面的构造仍然成立，只是通常写在正定矩阵锥上的密度公式要等自由度足够大时才适用，一般要求 $\nu>p-1$ 。

这正是一维结论

\bar X\perp\!\!\!\perp s^2, \qquad \frac{(n-1)s^2}{\sigma^2}\sim\chi^2_{n-1}

的多维版本。一维情形，去掉样本均值后，残差平方和服从 $\chi^2$ 分布；多维情形，去掉样本均值向量后，残差外积和服从 Wishart 分布。可按下表理解：

一维正态样本	多维正态样本
平方 $(X_i-\bar X)^2$	外积 $(X_i-\bar X)(X_i-\bar X)^\top$
平方和	外积和
$\chi^2_{n-1}$	$W_p(\Sigma,n-1)$
$\bar X\perp\!\!\!\perp s^2$	$\bar X\perp\!\!\!\perp S$

4. 证明：旋转样本空间

我们不从 Wishart 密度入手。密度当然有用，但第一次见 Wishart 就直接看密度，容易使人畏惧，我们把密度结果总结成了后面的remark。更佳的入口是正交分解。

把数据写成一个 $n\times p$ 矩阵

X= \begin{pmatrix} X_1^\top\\ \vdots\\ X_n^\top \end{pmatrix}, \qquad \mathbf 1_n=(1,\ldots,1)^\top.

取一个 $n\times n$ 正交矩阵 $H$ ，使它的第一行为

\frac1{\sqrt n}\mathbf 1_n^\top.

定义标准化数据矩阵

Z=(X-\mathbf 1_n\mu^\top)\Sigma^{-1/2}.

$Z$ 的各行是独立的 $N_p(0,I_p)$ 随机向量。左乘正交矩阵只是在样本编号方向上做旋转，因此

U=HZ

仍然有独立的 $N_p(0,I_p)$ 行。记第 $j$ 行为 $u_j^\top$ ，其中 $u_j\in\mathbb R^p$ 。

第一行正好对应均值方向：

u_1^\top =\frac1{\sqrt n}\mathbf 1_n^\top Z =\sqrt n\,(\bar X-\mu)^\top\Sigma^{-1/2}.

所以 $u_1$ 包含的就是 $\bar X$ 的信息。

剩下的 $u_2^\top,\ldots,u_n^\top$ 是残差方向。令

P_0=\frac1n\mathbf 1_n\mathbf 1_n^\top, \qquad P_1=I_n-P_0.

这里 $P_0$ 是到均值方向的投影， $P_1$ 是到其正交补的投影。由于 $H$ 的第一行是 $\mathbf 1_n^\top/\sqrt n$ ，

P_1 =H^\top \begin{pmatrix} 0&0\\ 0&I_{n-1} \end{pmatrix} H.

于是残差外积和可以写成

\begin{aligned} (n-1)S &=(X-\mathbf 1_n\bar X^\top)^\top(X-\mathbf 1_n\bar X^\top)\\ &=X^\top P_1X\\ &=(X-\mathbf 1_n\mu^\top)^\top P_1(X-\mathbf 1_n\mu^\top)\\ &=\Sigma^{1/2}Z^\top P_1Z\Sigma^{1/2}\\ &=\Sigma^{1/2}\left(\sum_{j=2}^{n}u_ju_j^\top\right)\Sigma^{1/2}\\ &=\sum_{j=2}^{n}(\Sigma^{1/2}u_j)(\Sigma^{1/2}u_j)^\top. \end{aligned}

第三行用到了 $P_1\mathbf 1_n=0$ ：残差投影会把常数均值方向消掉。

最后一行就是 $n-1$ 个独立 $N_p(0,\Sigma)$ 向量的外积和。因此

(n-1)S\sim W_p(\Sigma,n-1).

另一方面， $\bar X$ 只依赖 $u_1$ ，而 $S$ 只依赖 $u_2,\ldots,u_n$ 。这些向量相互独立，所以

\bar X\perp\!\!\!\perp S.

这其实已经把 Cochran 定理的核心证明写出来了。下面把它抽象成投影矩阵版本。

为什么自由度是 n-1，不是 n-p

减去 $\bar X$ 去掉的是样本编号空间中的一个方向，即 $(1,\ldots,1)$ 这个方向，而不是去掉 $p$ 个方向。剩下的每个残差方向仍然是完整的 $p$ 维向量。因此 Wishart 的自由度是 $n-1$ 。

5. Cochran 定理：投影以后仍是 Wishart

更一般的表述如下。前面我们只投影掉均值方向；Cochran 定理说，只要投影矩阵是对称幂等的，正态样本矩阵被它截出来的那部分仍然给出 Wishart 分布。

定理：Cochran 定理

设

z_1,\ldots,z_m\stackrel{\mathrm{iid}}{\sim}N_p(0,\Sigma), \qquad Z= \begin{pmatrix} z_1^\top\\ \vdots\\ z_m^\top \end{pmatrix}.

若 $P$ 是 $m\times m$ 对称幂等矩阵， $r=\operatorname{rank}(P)$ ，则

Z^\top PZ\sim W_p(\Sigma,r), \qquad Z^\top(I_m-P)Z\sim W_p(\Sigma,m-r),

并且这两个随机矩阵相互独立。

更一般地，若 $P_1,\ldots,P_k$ 是两两正交的对称幂等矩阵，且 $\sum_{a=1}^kP_a=I_m$ ，则

Z^\top P_aZ\sim W_p(\Sigma,\operatorname{rank}(P_a)), \qquad a=1,\ldots,k,

并且这些矩阵相互独立。

证明

只证一个投影 $P$ 的情形，多个投影完全一样。由于 $P$ 对称幂等，它就是到某个 $r$ 维子空间的正交投影。因此存在正交矩阵 $H$ ，使得

P = H^\top \begin{pmatrix} I_r&0\\ 0&0 \end{pmatrix} H, \qquad I_m-P = H^\top \begin{pmatrix} 0&0\\ 0&I_{m-r} \end{pmatrix} H.

令 $Y=HZ$ 。左乘正交矩阵只是旋转样本编号方向，所以 $Y$ 的行仍然独立同分布于 $N_p(0,\Sigma)$ 。把 $Y$ 按行分成

Y= \begin{pmatrix} Y_1\\ Y_2 \end{pmatrix}, \qquad Y_1\in\mathbb R^{r\times p},\quad Y_2\in\mathbb R^{(m-r)\times p}.

于是

Z^\top PZ=Y_1^\top Y_1, \qquad Z^\top(I_m-P)Z=Y_2^\top Y_2.

$Y_1$ 和 $Y_2$ 用的是互不相交的正态行，所以独立。按照 Wishart 分布的定义， $Y_1^\top Y_1\sim W_p(\Sigma,r)$ ， $Y_2^\top Y_2\sim W_p(\Sigma,m-r)$ 。

在样本协方差矩阵的例子里，取

P=I_n-\frac1n\mathbf 1_n\mathbf 1_n^\top.

这是秩为 $n-1$ 的投影矩阵，而且 $P\mathbf 1_n=0$ 。所以

(n-1)S =X^\top PX =(X-\mathbf 1_n\mu^\top)^\top P(X-\mathbf 1_n\mu^\top) \sim W_p(\Sigma,n-1).

这就是样本协方差矩阵服从 Wishart 分布的简洁证明。它比手工旋转样本空间更短，但背后的几何还是同一件事：投影先把样本编号空间切成几块，再把每一块里的正态行拿去做外积和。

6. 关于 Wishart 密度的注记

若 $\nu>p-1$ 且 $W$ 正定，Wishart 密度为

f(W) = \frac{ |W|^{(\nu-p-1)/2} \exp\left\{-\frac12\operatorname{tr}(\Sigma^{-1}W)\right\} }{ 2^{\nu p/2}|\Sigma|^{\nu/2}\Gamma_p(\nu/2) }, \qquad W>0,

其中多元 Gamma 函数为

\Gamma_p(a) = \pi^{p(p-1)/4} \prod_{j=1}^{p}\Gamma\left(a-\frac{j-1}{2}\right).

第一次尝试理解 Wishart 时，看到上面的公式可能会凄凉值增加，它的推导需要在正定矩阵锥上做 Jacobian 计算，过于 technical 了，此处不表。

总结

一维正态样本中，投影去掉均值方向后，还剩 $n-1$ 个独立的高斯残差方向；它们的长度平方给出 $\chi^2_{n-1}$ 。Wishart 定理就是这句话的向量版本：平方变成外积，方差变成协方差矩阵， $\bar X\perp s^2$ 变成 $\bar X\perp S$ 。Cochran 定理则把“均值方向”换成任意正交投影，是这套论证的通用版本。

章末回看

本章原始题目和解答正文来自对应 TeX 分文件。
可先只看题目框，写出关键等式后再展开证明或解答。
若结论用到独立性、可列可加性、换元公式或矩条件，最好顺手标明。