概念索引

目录

这里收集正文中反复使用、但解答里不一定每次重述的定义和工具。每个条目只保留最常用的判断方式和公式,方便查阅。

基本建模与分布函数

定义:概率空间

概率空间是三元组 (Ω,F,P)(\Omega,\mathcal F,\mathbb P)。其中 Ω\Omega 是样本空间,F\mathcal F 是事件域,P:F[0,1]\mathbb P:\mathcal F\to[0,1] 满足 P(Ω)=1\mathbb P(\Omega)=1 与可列可加性。做题时先确认“什么是结果、什么是事件、概率如何给出”。

定义:σ-代数

F\mathcal FΩ\Omega 上的 σ\sigma-代数,若 ΩF\Omega\in\mathcal F,且对补集和可列并封闭。由 De Morgan 公式,它也对可列交封闭。它规定了哪些集合可以谈概率。

工具:从随机试验构造概率空间

有限或可列模型通常按三步写:

  • 样本空间 Ω\Omega:列出所有可能结果;
  • 概率 P\mathbb P:说明等概率或给定权重;
  • 随机变量 XX:把每个样本点映到一个数。

这一步可以避免把“随机试验结果”和“随机变量取值”混在一起。

定义:随机变量

随机变量是从样本空间到实数空间的可测函数 X:ΩRX:\Omega\to\mathbb R。同一个概率空间上可以定义很多随机变量。许多题目先写 Ω\OmegaP\mathbb P,再定义 X(ω)X(\omega),计算会更清楚。

定义:独立性

事件族 {Ai:iI}\{A_i:i\in I\} 相互独立,指任意有限不同指标 i1,,iki_1,\dots,i_k 都满足

P(Ai1Aik)=j=1kP(Aij).\mathbb P(A_{i_1}\cap\cdots\cap A_{i_k}) =\prod_{j=1}^k \mathbb P(A_{i_j}).

两两独立只检查 k=2k=2,严格弱于相互独立。

定义:分布函数

随机变量 XX 的分布函数为 F(x)=P(Xx)F(x)=\mathbb P(X\le x)。它必定单调不减、右连续,并满足

limxF(x)=0,limx+F(x)=1.\lim_{x\to-\infty}F(x)=0,\qquad \lim_{x\to+\infty}F(x)=1.

点质量由跳跃给出:P(X=x)=F(x)F(x)\mathbb P(X=x)=F(x)-F(x-)

工具:判断一个函数是不是分布函数

一个函数 FF 是分布函数,通常检查:

  • 单调不减;
  • 右连续;
  • limxF(x)=0\lim_{x\to-\infty}F(x)=0
  • limx+F(x)=1\lim_{x\to+\infty}F(x)=1

F,GF,G 是分布函数,0λ10\le \lambda\le 1,则

λF+(1λ)G\lambda F+(1-\lambda)G

仍是分布函数。

工具:由分布函数构造随机变量

UU[0,1]U\sim U[0,1],可用逆变换

X=F1(U),F1(u)=inf{x:F(x)u}X=F^{-1}(U),\qquad F^{-1}(u)=\inf\{x:F(x)\ge u\}

构造分布函数为 FF 的随机变量。

条件期望、指标变量与二阶矩

工具:尾和公式

XX 是非负整值随机变量,则

EX=n=0P(X>n).\mathbb E X=\sum_{n=0}^{\infty}\mathbb P(X>n).

X0X\ge0 是一般非负随机变量,则

EX=0P(X>t)dt\mathbb E X=\int_0^\infty \mathbb P(X>t)\,dt

在允许取 ++\infty 的意义下成立。

工具:条件化

遇到混合分布或分阶段随机试验时,先选一个能简化结构的条件变量 YY,再使用

P(A)=yP(AY=y)P(Y=y),EX=E[E(XY)].\mathbb P(A)=\sum_y \mathbb P(A\mid Y=y)\mathbb P(Y=y), \qquad \mathbb E X=\mathbb E[\mathbb E(X\mid Y)].

连续情形把求和替换为积分。

定义:条件期望
E[XF]\mathbb E[X\mid\mathcal F]

是给定信息 F\mathcal F 后对 XX 的平均预测。离散情形下,可以把 F\mathcal F 看成把样本空间分成若干条件块,条件期望就是在每个条件块上取平均。常用公式是塔式性质

EX=E[E(XY)].\mathbb E X=\mathbb E[\mathbb E(X\mid Y)].
工具:指标变量分解

计数型随机变量常写成

N=iIi.N=\sum_i I_i.

于是

EN=iEIi,\mathbb E N=\sum_i\mathbb E I_i,

而方差可用

Var(N)=iVar(Ii)+2i<jCov(Ii,Ij).\operatorname{Var}(N)=\sum_i\operatorname{Var}(I_i) +2\sum_{i<j}\operatorname{Cov}(I_i,I_j).

计数相邻关系、局部结构、出现次数等问题常用此法。

工具:协方差线性性

协方差对每个变量分别线性,例如

Cov(aX+bY,Z)=aCov(X,Z)+bCov(Y,Z).\operatorname{Cov}(aX+bY,Z) =a\operatorname{Cov}(X,Z)+b\operatorname{Cov}(Y,Z).

X,YX,Y 独立且二阶矩有限,则

Cov(X,Y)=0.\operatorname{Cov}(X,Y)=0.

样本均值、中心化变量、投影残差等题目常可用协方差线性性一行算完。

工具:高偶数阶矩法与 Markov 不等式

所谓 2m2m 阶矩法,就是先把尾事件改写成高偶数次幂的尾事件。若 m1m\ge1EX2m<\mathbb E|X|^{2m}<\infty,由 Markov 不等式,

P(Xa)=P(X2ma2m)EX2ma2m.\mathbb P(|X|\ge a) =\mathbb P(|X|^{2m}\ge a^{2m}) \le \frac{\mathbb E|X|^{2m}}{a^{2m}}.

特别地,m=1m=1EX=0\mathbb E X=0 时得到 Chebyshev 不等式:

P(Xa)Var(X)a2.\mathbb P(|X|\ge a)\le \frac{\operatorname{Var}(X)}{a^2}.

它常用于证明依概率收敛。若

EXnc2m0,\mathbb E|X_n-c|^{2m}\to0,

XnPc.X_n\xrightarrow{P}c.

常见用法是把目标差写成 XncX_n-c,再控制一个偶数阶矩。二阶矩不够小时,可以尝试四阶矩、六阶矩或更高偶数阶矩。

特征函数与独立性

定义:特征函数

随机变量 XX 的特征函数为

φX(t)=EeitX.\varphi_X(t)=\mathbb E e^{itX}.

它总是存在,且 φX(0)=1\varphi_X(0)=1。分布由特征函数唯一决定,所以它适合处理独立和与极限分布。

工具:独立和的特征函数

X,YX,Y 独立,则

φX+Y(t)=φX(t)φY(t).\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t).

更一般地,独立随机变量之和对应特征函数的乘积。做独立和极限时,常先把每一项的特征函数写出来,再看乘积的极限。

工具:联合特征函数判别独立

联合特征函数定义为

φX,Y(s,t)=Eei(sX+tY).\varphi_{X,Y}(s,t)=\mathbb E e^{i(sX+tY)}.

φX,Y(s,t)=φX(s)φY(t)对所有 s,t\varphi_{X,Y}(s,t)=\varphi_X(s)\varphi_Y(t) \quad\text{对所有 }s,t

成立,则 XXYY 独立。注意:只知道

φX+Y(t)=φX(t)φY(t)\varphi_{X+Y}(t)=\varphi_X(t)\varphi_Y(t)

一般不能推出 X,YX,Y 独立,因为这只检查了联合特征函数的对角线。

工具:特征函数收敛

φXn(t)φ(t),\varphi_{X_n}(t)\to \varphi(t),

φ\varphi 是某个随机变量 XX 的特征函数,并且在 00 连续,则

XndX.X_n\xrightarrow{d}X.

特别地,若极限为

et2/2,e^{-t^2/2},

则极限分布是 N(0,1)N(0,1)

依分布收敛与测试函数

定义:依分布收敛
XndXX_n\xrightarrow{d}X

等价于在 XX 的分布函数连续点 xx 处有

Fn(x)F(x).F_n(x)\to F(x).

也等价于对所有有界连续函数 hh

Eh(Xn)Eh(X).\mathbb E h(X_n)\to \mathbb E h(X).

使用分布函数时只在连续点直接取极限。

工具:Skorohod 表示

XnXX_n\Rightarrow X,在合适条件下可构造同分布副本

X~n=dXn,X~=dX,\widetilde X_n\stackrel d=X_n,\qquad \widetilde X\stackrel d=X,

使得

X~nX~a.s.\widetilde X_n\to\widetilde X\quad a.s.

这可以把依分布收敛问题转化为几乎处处收敛问题;但它是一个定理,不能默认原来的 XnX_n 就几乎处处收敛。

工具:独立性在极限下保持

XnXX_n\to X a.s.,YnYY_n\to Y a.s.,且每个 nnXn,YnX_n,Y_n 独立,则 X,YX,Y 独立。可用有界连续函数判据:对任意有界连续 f,gf,g

Ef(Xn)g(Yn)=Ef(Xn)Eg(Yn),\mathbb E f(X_n)g(Y_n) =\mathbb E f(X_n)\mathbb E g(Y_n),

再由控制收敛定理取极限。

极限定理工具箱

工具:大数定律

XiX_i 独立同分布且 EX1<\mathbb E|X_1|<\infty,则

1ni=1nXiPEX1.\frac1n\sum_{i=1}^n X_i\xrightarrow{P}\mathbb E X_1.

用于把样本平均替换为理论均值。做题时先检查独立同分布与一阶矩条件。

工具:中心极限定理

XiX_i 独立同分布,EXi=0\mathbb E X_i=0Var(Xi)=1\operatorname{Var}(X_i)=1,则

1ni=1nXidN(0,1).\frac1{\sqrt n}\sum_{i=1}^n X_i\xrightarrow{d}N(0,1).

更一般情形先中心化再除以标准差。使用前先检查均值、方差和独立同分布。

工具:Slutsky 定理

XndX,YnPc,X_n\xrightarrow{d}X,\qquad Y_n\xrightarrow{P}c,

XnYndcX,Xn+YndX+c.X_nY_n\xrightarrow{d}cX,\qquad X_n+Y_n\xrightarrow{d}X+c.

特别是若分母依概率收敛到 11,则

XnYndX.\frac{X_n}{Y_n}\xrightarrow{d}X.

它常用来处理随机归一化或可忽略误差项。

工具:矩方法

若所有矩收敛到某个由矩唯一确定的分布的矩,则可推出依分布收敛。标准正态 NN 的奇数阶矩为 00,偶数阶矩为

E[N2k]=(2k1)!!.\mathbb E[N^{2k}]=(2k-1)!!.

使用时要说明目标分布由矩唯一确定,不能只写“矩收敛”。

三角阵列

定义:三角阵列标准化和

处理

k=1nYn,k\sum_{k=1}^n Y_{n,k}

这类每一行都变化的和时,常记

Bn2=k=1nVar(Yn,k).B_n^2=\sum_{k=1}^n\operatorname{Var}(Y_{n,k}).

标准化对象为

1Bnk=1n(Yn,kEYn,k).\frac1{B_n}\sum_{k=1}^n (Y_{n,k}-\mathbb E Y_{n,k}).

先算 Bn2B_n^2,再判断是否满足相应中心极限定理条件。

工具:Lindeberg 条件

对任意 ε>0\varepsilon>0,若

1Bn2k=1nE[Yn,k21{Yn,k>εBn}]0,\frac1{B_n^2}\sum_{k=1}^n \mathbb E\left[ Y_{n,k}^2\mathbf 1_{\{|Y_{n,k}|>\varepsilon B_n\}} \right]\to0,

则在适当条件下有中心极限定理。使用步骤:

  • 先算 Bn2B_n^2
  • 再写 Lindeberg 项;
  • 用尾部可积性或更强矩条件控制。
工具:三阶矩判据推出 Lindeberg 条件

1Bn3k=1nEYn,k30,\frac1{B_n^3}\sum_{k=1}^n \mathbb E|Y_{n,k}|^3\to0,

则 Lindeberg 条件成立。因为在 Yn,k>εBn|Y_{n,k}|>\varepsilon B_n 上有

Yn,k2Yn,k3εBn.Y_{n,k}^2\le \frac{|Y_{n,k}|^3}{\varepsilon B_n}.

这是教材中常用的三阶矩快速验证法。

高阶工具:尾界与集中不等式

工具:Paley-Zygmund 与二阶矩下界

X0X\ge00<θ<10<\theta<1,则

P(XθEX)(1θ)2(EX)2E[X2].\mathbb P(X\ge \theta \mathbb E X) \ge (1-\theta)^2\frac{(\mathbb E X)^2}{\mathbb E[X^2]}.

θ0\theta\downarrow0 得到二阶矩方法:

P(X>0)(EX)2E[X2].\mathbb P(X>0)\ge \frac{(\mathbb E X)^2}{\mathbb E[X^2]}.

适合证明“某个结构至少出现一次”。常见做法是令 XX 为出现次数,先算 EX\mathbb E X,再控制 EX2\mathbb E X^2

工具:事件版二阶矩法

Bn=i=1mnAn,i,μn=i=1mnP(An,i).B_n=\bigcup_{i=1}^{m_n} A_{n,i},\qquad \mu_n=\sum_{i=1}^{m_n}\mathbb P(A_{n,i}).

若只把不独立的事件对记入

γn=ijP(An,iAn,j),\gamma_n=\sum_{i\sim j}\mathbb P(A_{n,i}\cap A_{n,j}),

则在很多计数问题中,μn\mu_n\to\inftyγn=o(μn2)\gamma_n=o(\mu_n^2) 可以推出 P(Bn)1\mathbb P(B_n)\to1。这是二阶矩法在随机图、随机结构出现问题中的常用模板。

工具:Chernoff-Cramer 界

若矩母函数

MX(s)=EesXM_X(s)=\mathbb E e^{sX}

在相关范围内有限,记

ΨX(s)=logMX(s).\Psi_X(s)=\log M_X(s).

s>0s>0,由指数型 Markov 不等式,

P(Xβ)exp{sβ+ΨX(s)}.\mathbb P(X\ge \beta) \le \exp\{-s\beta+\Psi_X(s)\}.

因此通常写成

P(Xβ)infs>0exp{sβ+ΨX(s)}.\mathbb P(X\ge \beta) \le \inf_{s>0}\exp\{-s\beta+\Psi_X(s)\}.

这一步是许多指数尾界的起点:先写矩母函数,再优化参数 ss

定义:次高斯随机变量

μ=EX\mu=\mathbb E X,并且存在 ν>0\nu>0 使得对所有 sRs\in\mathbb R

ΨXμ(s)νs22,\Psi_{X-\mu}(s)\le \frac{\nu s^2}{2},

则称 XX 是参数为 ν\nu 的次高斯随机变量。它的典型尾界为

P(Xμβ)2exp(β22ν).\mathbb P(|X-\mu|\ge \beta) \le 2\exp\left(-\frac{\beta^2}{2\nu}\right).

有界变量、正态变量以及许多独立和都会给出这种平方指数尾部。

工具:Hoeffding 型加权和界

XiX_i 相互独立,且 XisG(νi)X_i\in \mathrm{s}\mathcal G(\nu_i),令

S=i=1nwiXi,V=i=1nwi2νi.S=\sum_{i=1}^n w_iX_i,\qquad V=\sum_{i=1}^n w_i^2\nu_i.

SS 仍是次高斯型,并有

P(SESβ)2exp(β22V).\mathbb P(|S-\mathbb ES|\ge \beta) \le 2\exp\left(-\frac{\beta^2}{2V}\right).

适合处理独立加权和、随机符号和、经验平均偏差等问题。关键是先把方差代理量 VV 算清楚。

定义:次指数随机变量

μ=EX\mu=\mathbb E X,并且存在 ν,α>0\nu,\alpha>0 使得当 s<1/α|s|<1/\alpha 时,

ΨXμ(s)νs22,\Psi_{X-\mu}(s)\le \frac{\nu s^2}{2},

则称 XX 是参数为 (ν,α)(\nu,\alpha) 的次指数随机变量。其一侧尾界为

P(Xμβ){exp(β22ν),0<βν/α,exp(β2α),β>ν/α.\mathbb P(X-\mu\ge \beta)\le \begin{cases} \exp\left(-\dfrac{\beta^2}{2\nu}\right),&0<\beta\le \nu/\alpha,\\ \exp\left(-\dfrac{\beta}{2\alpha}\right),&\beta>\nu/\alpha. \end{cases}

直观上,小偏差像次高斯,大偏差变成指数尾。

工具:Bernstein 型有界变量界

X1,,XnX_1,\dots,X_n 相互独立,μi=EXi\mu_i=\mathbb E X_iVar(Xi)=σi2\operatorname{Var}(X_i)=\sigma_i^2,且

Xiμic.|X_i-\mu_i|\le c.

Sn=iXiS_n=\sum_iX_iV=iσi2V=\sum_i\sigma_i^2,则常用的一侧 Bernstein 型界为

P(SnESnβ){exp(β24V),0<βV/c,exp(β4c),β>V/c.\mathbb P(S_n-\mathbb ES_n\ge \beta)\le \begin{cases} \exp\left(-\dfrac{\beta^2}{4V}\right),&0<\beta\le V/c,\\ \exp\left(-\dfrac{\beta}{4c}\right),&\beta>V/c. \end{cases}

双侧估计可对 Xi-X_i 再用一次。它比只用 Chebyshev 更适合处理独立有界变量的偏差。

工具:Borel-Cantelli 引理的使用模板

n=1P(An)<,\sum_{n=1}^\infty \mathbb P(A_n)<\infty,

P(An i.o.)=0.\mathbb P(A_n\ \text{i.o.})=0.

常用于证明“某个坏事件只发生有限多次”,从而得到几乎处处的最终上界。若事件 AnA_n 相互独立且 nP(An)=\sum_n\mathbb P(A_n)=\infty,则第二 Borel-Cantelli 引理给出 P(An i.o.)=1\mathbb P(A_n\ \text{i.o.})=1

常用技术速查

  • 要证明依概率收敛:先试高偶数阶矩法或 Chebyshev。
  • 要证明依分布收敛到正态:先试 CLT + Slutsky。
  • 是三角阵列:检查 Lindeberg 或三阶矩判据。
  • 是独立和:考虑特征函数。
  • 要证明某个非负计数变量为正:试 Paley-Zygmund 或二阶矩下界。
  • 需要指数尾界:先写矩母函数,试 Chernoff-Cramer。
  • 是独立加权和:检查是否可用 Hoeffding 型界。
  • 是独立有界变量和:考虑 Bernstein 型界。
  • 是最大值概率:先试并集界,再配合 Chernoff-Cramer、Hoeffding 或 Bernstein。
  • 是几乎处处最终性质:考虑 Borel-Cantelli。
  • 是计数问题:写成指标变量之和。
  • 是分布函数极限:只在连续点直接取极限。
  • 是期望极限但只有依分布收敛:考虑 Skorohod 表示或一致可积性。
阅读警告

概率论里许多“显然”其实依赖可列可加性、单调收敛、独立性、矩条件或极限定理的适用条件。读证明时最好把这些条件逐步标出来。