概念索引

这里收集正文中反复使用、但解答里不一定每次重述的定义和工具。每个条目只保留最常用的判断方式和公式，方便查阅。

基本建模与分布函数

定义：概率空间

概率空间是三元组 $(\Omega,\mathcal F,\mathbb P)$ 。其中 $\Omega$ 是样本空间， $\mathcal F$ 是事件域， $\mathbb P:\mathcal F\to[0,1]$ 满足 $\mathbb P(\Omega)=1$ 与可列可加性。做题时先确认“什么是结果、什么是事件、概率如何给出”。

定义：σ-代数

$\mathcal F$ 是 $\Omega$ 上的 $\sigma$ -代数，若 $\Omega\in\mathcal F$ ，且对补集和可列并封闭。由 De Morgan 公式，它也对可列交封闭。它规定了哪些集合可以谈概率。

工具：从随机试验构造概率空间

有限或可列模型通常按三步写：

样本空间 $\Omega$ ：列出所有可能结果；
概率 $\mathbb P$ ：说明等概率或给定权重；
随机变量 $X$ ：把每个样本点映到一个数。

这一步可以避免把“随机试验结果”和“随机变量取值”混在一起。

定义：随机变量

随机变量是从样本空间到实数空间的可测函数 $X:\Omega\to\mathbb R$ 。同一个概率空间上可以定义很多随机变量。许多题目先写 $\Omega$ 与 $\mathbb P$ ，再定义 $X(\omega)$ ，计算会更清楚。

定义：独立性

事件族 $\{A_i:i\in I\}$ 相互独立，指任意有限不同指标 $i_1,\dots,i_k$ 都满足

\mathbb P(A_{i_1}\cap\cdots\cap A_{i_k}) =\prod_{j=1}^k \mathbb P(A_{i_j}).

两两独立只检查 $k=2$ ，严格弱于相互独立。

定义：分布函数

随机变量 $X$ 的分布函数为 $F(x)=\mathbb P(X\le x)$ 。它必定单调不减、右连续，并满足

\lim_{x\to-\infty}F(x)=0,\qquad \lim_{x\to+\infty}F(x)=1.

点质量由跳跃给出： $\mathbb P(X=x)=F(x)-F(x-)$ 。

工具：判断一个函数是不是分布函数

一个函数 $F$ 是分布函数，通常检查：

单调不减；
右连续；
$\lim_{x\to-\infty}F(x)=0$ ；
$\lim_{x\to+\infty}F(x)=1$ 。

若 $F,G$ 是分布函数， $0\le \lambda\le 1$ ，则

\lambda F+(1-\lambda)G

仍是分布函数。

工具：由分布函数构造随机变量

若 $U\sim U[0,1]$ ，可用逆变换

X=F^{-1}(U),\qquad F^{-1}(u)=\inf\{x:F(x)\ge u\}

构造分布函数为 $F$ 的随机变量。

条件期望、指标变量与二阶矩

工具：尾和公式

若 $X$ 是非负整值随机变量，则

\mathbb E X=\sum_{n=0}^{\infty}\mathbb P(X>n).

若 $X\ge0$ 是一般非负随机变量，则

\mathbb E X=\int_0^\infty \mathbb P(X>t)\,dt

在允许取 $+\infty$ 的意义下成立。

工具：条件化

遇到混合分布或分阶段随机试验时，先选一个能简化结构的条件变量 $Y$ ，再使用

\mathbb P(A)=\sum_y \mathbb P(A\mid Y=y)\mathbb P(Y=y), \qquad \mathbb E X=\mathbb E[\mathbb E(X\mid Y)].

连续情形把求和替换为积分。

定义：条件期望

\mathbb E[X\mid\mathcal F]

是给定信息 $\mathcal F$ 后对 $X$ 的平均预测。离散情形下，可以把 $\mathcal F$ 看成把样本空间分成若干条件块，条件期望就是在每个条件块上取平均。常用公式是塔式性质

\mathbb E X=\mathbb E[\mathbb E(X\mid Y)].

工具：指标变量分解

计数型随机变量常写成

N=\sum_i I_i.

于是

\mathbb E N=\sum_i\mathbb E I_i,

而方差可用

\operatorname{Var}(N)=\sum_i\operatorname{Var}(I_i) +2\sum_{i<j}\operatorname{Cov}(I_i,I_j).

计数相邻关系、局部结构、出现次数等问题常用此法。

工具：协方差线性性

协方差对每个变量分别线性，例如

\operatorname{Cov}(aX+bY,Z) =a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z).

若 $X,Y$ 独立且二阶矩有限，则

\operatorname{Cov}(X,Y)=0.

样本均值、中心化变量、投影残差等题目常可用协方差线性性一行算完。

工具：高偶数阶矩法与 Markov 不等式

所谓 $2m$ 阶矩法，就是先把尾事件改写成高偶数次幂的尾事件。若 $m\ge1$ 且 $\mathbb E|X|^{2m}<\infty$ ，由 Markov 不等式，

\mathbb P(|X|\ge a) =\mathbb P(|X|^{2m}\ge a^{2m}) \le \frac{\mathbb E|X|^{2m}}{a^{2m}}.

特别地， $m=1$ 且 $\mathbb E X=0$ 时得到 Chebyshev 不等式：

\mathbb P(|X|\ge a)\le \frac{\operatorname{Var}(X)}{a^2}.

它常用于证明依概率收敛。若

\mathbb E|X_n-c|^{2m}\to0,

则

X_n\xrightarrow{P}c.

常见用法是把目标差写成 $X_n-c$ ，再控制一个偶数阶矩。二阶矩不够小时，可以尝试四阶矩、六阶矩或更高偶数阶矩。

特征函数与独立性

定义：特征函数

随机变量 $X$ 的特征函数为

\varphi_X(t)=\mathbb E e^{itX}.

它总是存在，且 $\varphi_X(0)=1$ 。分布由特征函数唯一决定，所以它适合处理独立和与极限分布。

工具：独立和的特征函数

若 $X,Y$ 独立，则

\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t).

更一般地，独立随机变量之和对应特征函数的乘积。做独立和极限时，常先把每一项的特征函数写出来，再看乘积的极限。

工具：联合特征函数判别独立

联合特征函数定义为

\varphi_{X,Y}(s,t)=\mathbb E e^{i(sX+tY)}.

若

\varphi_{X,Y}(s,t)=\varphi_X(s)\varphi_Y(t) \quad\text{对所有 }s,t

成立，则 $X$ 与 $Y$ 独立。注意：只知道

\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t)

一般不能推出 $X,Y$ 独立，因为这只检查了联合特征函数的对角线。

工具：特征函数收敛

若

\varphi_{X_n}(t)\to \varphi(t),

且 $\varphi$ 是某个随机变量 $X$ 的特征函数，并且在 $0$ 连续，则

X_n\xrightarrow{d}X.

特别地，若极限为

e^{-t^2/2},

则极限分布是 $N(0,1)$ 。

依分布收敛与测试函数

定义：依分布收敛

X_n\xrightarrow{d}X

等价于在 $X$ 的分布函数连续点 $x$ 处有

F_n(x)\to F(x).

也等价于对所有有界连续函数 $h$ ，

\mathbb E h(X_n)\to \mathbb E h(X).

使用分布函数时只在连续点直接取极限。

工具：Skorohod 表示

若 $X_n\Rightarrow X$ ，在合适条件下可构造同分布副本

\widetilde X_n\stackrel d=X_n,\qquad \widetilde X\stackrel d=X,

使得

\widetilde X_n\to\widetilde X\quad a.s.

这可以把依分布收敛问题转化为几乎处处收敛问题；但它是一个定理，不能默认原来的 $X_n$ 就几乎处处收敛。

工具：独立性在极限下保持

若 $X_n\to X$ a.s.， $Y_n\to Y$ a.s.，且每个 $n$ 下 $X_n,Y_n$ 独立，则 $X,Y$ 独立。可用有界连续函数判据：对任意有界连续 $f,g$ ，

\mathbb E f(X_n)g(Y_n) =\mathbb E f(X_n)\mathbb E g(Y_n),

再由控制收敛定理取极限。

极限定理工具箱

工具：大数定律

若 $X_i$ 独立同分布且 $\mathbb E|X_1|<\infty$ ，则

\frac1n\sum_{i=1}^n X_i\xrightarrow{P}\mathbb E X_1.

用于把样本平均替换为理论均值。做题时先检查独立同分布与一阶矩条件。

工具：中心极限定理

若 $X_i$ 独立同分布， $\mathbb E X_i=0$ ， $\operatorname{Var}(X_i)=1$ ，则

\frac1{\sqrt n}\sum_{i=1}^n X_i\xrightarrow{d}N(0,1).

更一般情形先中心化再除以标准差。使用前先检查均值、方差和独立同分布。

工具：Slutsky 定理

若

X_n\xrightarrow{d}X,\qquad Y_n\xrightarrow{P}c,

则

X_nY_n\xrightarrow{d}cX,\qquad X_n+Y_n\xrightarrow{d}X+c.

特别是若分母依概率收敛到 $1$ ，则

\frac{X_n}{Y_n}\xrightarrow{d}X.

它常用来处理随机归一化或可忽略误差项。

工具：矩方法

若所有矩收敛到某个由矩唯一确定的分布的矩，则可推出依分布收敛。标准正态 $N$ 的奇数阶矩为 $0$ ，偶数阶矩为

\mathbb E[N^{2k}]=(2k-1)!!.

使用时要说明目标分布由矩唯一确定，不能只写“矩收敛”。

三角阵列

定义：三角阵列标准化和

处理

\sum_{k=1}^n Y_{n,k}

这类每一行都变化的和时，常记

B_n^2=\sum_{k=1}^n\operatorname{Var}(Y_{n,k}).

标准化对象为

\frac1{B_n}\sum_{k=1}^n (Y_{n,k}-\mathbb E Y_{n,k}).

先算 $B_n^2$ ，再判断是否满足相应中心极限定理条件。

工具：Lindeberg 条件

对任意 $\varepsilon>0$ ，若

\frac1{B_n^2}\sum_{k=1}^n \mathbb E\left[ Y_{n,k}^2\mathbf 1_{\{|Y_{n,k}|>\varepsilon B_n\}} \right]\to0,

则在适当条件下有中心极限定理。使用步骤：

先算 $B_n^2$ ；
再写 Lindeberg 项；
用尾部可积性或更强矩条件控制。

工具：三阶矩判据推出 Lindeberg 条件

若

\frac1{B_n^3}\sum_{k=1}^n \mathbb E|Y_{n,k}|^3\to0,

则 Lindeberg 条件成立。因为在 $|Y_{n,k}|>\varepsilon B_n$ 上有

Y_{n,k}^2\le \frac{|Y_{n,k}|^3}{\varepsilon B_n}.

这是教材中常用的三阶矩快速验证法。

高阶工具：尾界与集中不等式

工具：Paley-Zygmund 与二阶矩下界

若 $X\ge0$ 且 $0<\theta<1$ ，则

\mathbb P(X\ge \theta \mathbb E X) \ge (1-\theta)^2\frac{(\mathbb E X)^2}{\mathbb E[X^2]}.

令 $\theta\downarrow0$ 得到二阶矩方法：

\mathbb P(X>0)\ge \frac{(\mathbb E X)^2}{\mathbb E[X^2]}.

适合证明“某个结构至少出现一次”。常见做法是令 $X$ 为出现次数，先算 $\mathbb E X$ ，再控制 $\mathbb E X^2$ 。

工具：事件版二阶矩法

设

B_n=\bigcup_{i=1}^{m_n} A_{n,i},\qquad \mu_n=\sum_{i=1}^{m_n}\mathbb P(A_{n,i}).

若只把不独立的事件对记入

\gamma_n=\sum_{i\sim j}\mathbb P(A_{n,i}\cap A_{n,j}),

则在很多计数问题中， $\mu_n\to\infty$ 且 $\gamma_n=o(\mu_n^2)$ 可以推出 $\mathbb P(B_n)\to1$ 。这是二阶矩法在随机图、随机结构出现问题中的常用模板。

工具：Chernoff-Cramer 界

若矩母函数

M_X(s)=\mathbb E e^{sX}

在相关范围内有限，记

\Psi_X(s)=\log M_X(s).

对 $s>0$ ，由指数型 Markov 不等式，

\mathbb P(X\ge \beta) \le \exp\{-s\beta+\Psi_X(s)\}.

因此通常写成

\mathbb P(X\ge \beta) \le \inf_{s>0}\exp\{-s\beta+\Psi_X(s)\}.

这一步是许多指数尾界的起点：先写矩母函数，再优化参数 $s$ 。

定义：次高斯随机变量

若 $\mu=\mathbb E X$ ，并且存在 $\nu>0$ 使得对所有 $s\in\mathbb R$ ，

\Psi_{X-\mu}(s)\le \frac{\nu s^2}{2},

则称 $X$ 是参数为 $\nu$ 的次高斯随机变量。它的典型尾界为

\mathbb P(|X-\mu|\ge \beta) \le 2\exp\left(-\frac{\beta^2}{2\nu}\right).

有界变量、正态变量以及许多独立和都会给出这种平方指数尾部。

工具：Hoeffding 型加权和界

若 $X_i$ 相互独立，且 $X_i\in \mathrm{s}\mathcal G(\nu_i)$ ，令

S=\sum_{i=1}^n w_iX_i,\qquad V=\sum_{i=1}^n w_i^2\nu_i.

则 $S$ 仍是次高斯型，并有

\mathbb P(|S-\mathbb ES|\ge \beta) \le 2\exp\left(-\frac{\beta^2}{2V}\right).

适合处理独立加权和、随机符号和、经验平均偏差等问题。关键是先把方差代理量 $V$ 算清楚。

定义：次指数随机变量

若 $\mu=\mathbb E X$ ，并且存在 $\nu,\alpha>0$ 使得当 $|s|<1/\alpha$ 时，

\Psi_{X-\mu}(s)\le \frac{\nu s^2}{2},

则称 $X$ 是参数为 $(\nu,\alpha)$ 的次指数随机变量。其一侧尾界为

\mathbb P(X-\mu\ge \beta)\le \begin{cases} \exp\left(-\dfrac{\beta^2}{2\nu}\right),&0<\beta\le \nu/\alpha,\\ \exp\left(-\dfrac{\beta}{2\alpha}\right),&\beta>\nu/\alpha. \end{cases}

直观上，小偏差像次高斯，大偏差变成指数尾。

工具：Bernstein 型有界变量界

设 $X_1,\dots,X_n$ 相互独立， $\mu_i=\mathbb E X_i$ ， $\operatorname{Var}(X_i)=\sigma_i^2$ ，且

|X_i-\mu_i|\le c.

令 $S_n=\sum_iX_i$ 、 $V=\sum_i\sigma_i^2$ ，则常用的一侧 Bernstein 型界为

\mathbb P(S_n-\mathbb ES_n\ge \beta)\le \begin{cases} \exp\left(-\dfrac{\beta^2}{4V}\right),&0<\beta\le V/c,\\ \exp\left(-\dfrac{\beta}{4c}\right),&\beta>V/c. \end{cases}

双侧估计可对 $-X_i$ 再用一次。它比只用 Chebyshev 更适合处理独立有界变量的偏差。

工具：Borel-Cantelli 引理的使用模板

若

\sum_{n=1}^\infty \mathbb P(A_n)<\infty,

则

\mathbb P(A_n\ \text{i.o.})=0.

常用于证明“某个坏事件只发生有限多次”，从而得到几乎处处的最终上界。若事件 $A_n$ 相互独立且 $\sum_n\mathbb P(A_n)=\infty$ ，则第二 Borel-Cantelli 引理给出 $\mathbb P(A_n\ \text{i.o.})=1$ 。

常用技术速查

要证明依概率收敛：先试高偶数阶矩法或 Chebyshev。
要证明依分布收敛到正态：先试 CLT + Slutsky。
是三角阵列：检查 Lindeberg 或三阶矩判据。
是独立和：考虑特征函数。
要证明某个非负计数变量为正：试 Paley-Zygmund 或二阶矩下界。
需要指数尾界：先写矩母函数，试 Chernoff-Cramer。
是独立加权和：检查是否可用 Hoeffding 型界。
是独立有界变量和：考虑 Bernstein 型界。
是最大值概率：先试并集界，再配合 Chernoff-Cramer、Hoeffding 或 Bernstein。
是几乎处处最终性质：考虑 Borel-Cantelli。
是计数问题：写成指标变量之和。
是分布函数极限：只在连续点直接取极限。
是期望极限但只有依分布收敛：考虑 Skorohod 表示或一致可积性。

阅读警告

概率论里许多“显然”其实依赖可列可加性、单调收敛、独立性、矩条件或极限定理的适用条件。读证明时最好把这些条件逐步标出来。