概念索引
目录
这里收集正文中反复使用、但解答里不一定每次重述的定义和工具。每个条目只保留最常用的判断方式和公式,方便查阅。
基本建模与分布函数
概率空间是三元组 。其中 是样本空间, 是事件域, 满足 与可列可加性。做题时先确认“什么是结果、什么是事件、概率如何给出”。
是 上的 -代数,若 ,且对补集和可列并封闭。由 De Morgan 公式,它也对可列交封闭。它规定了哪些集合可以谈概率。
有限或可列模型通常按三步写:
- 样本空间 :列出所有可能结果;
- 概率 :说明等概率或给定权重;
- 随机变量 :把每个样本点映到一个数。
这一步可以避免把“随机试验结果”和“随机变量取值”混在一起。
随机变量是从样本空间到实数空间的可测函数 。同一个概率空间上可以定义很多随机变量。许多题目先写 与 ,再定义 ,计算会更清楚。
事件族 相互独立,指任意有限不同指标 都满足
两两独立只检查 ,严格弱于相互独立。
随机变量 的分布函数为 。它必定单调不减、右连续,并满足
点质量由跳跃给出:。
一个函数 是分布函数,通常检查:
- 单调不减;
- 右连续;
- ;
- 。
若 是分布函数,,则
仍是分布函数。
若 ,可用逆变换
构造分布函数为 的随机变量。
条件期望、指标变量与二阶矩
若 是非负整值随机变量,则
若 是一般非负随机变量,则
在允许取 的意义下成立。
遇到混合分布或分阶段随机试验时,先选一个能简化结构的条件变量 ,再使用
连续情形把求和替换为积分。
是给定信息 后对 的平均预测。离散情形下,可以把 看成把样本空间分成若干条件块,条件期望就是在每个条件块上取平均。常用公式是塔式性质
计数型随机变量常写成
于是
而方差可用
计数相邻关系、局部结构、出现次数等问题常用此法。
协方差对每个变量分别线性,例如
若 独立且二阶矩有限,则
样本均值、中心化变量、投影残差等题目常可用协方差线性性一行算完。
所谓 阶矩法,就是先把尾事件改写成高偶数次幂的尾事件。若 且 ,由 Markov 不等式,
特别地, 且 时得到 Chebyshev 不等式:
它常用于证明依概率收敛。若
则
常见用法是把目标差写成 ,再控制一个偶数阶矩。二阶矩不够小时,可以尝试四阶矩、六阶矩或更高偶数阶矩。
特征函数与独立性
随机变量 的特征函数为
它总是存在,且 。分布由特征函数唯一决定,所以它适合处理独立和与极限分布。
若 独立,则
更一般地,独立随机变量之和对应特征函数的乘积。做独立和极限时,常先把每一项的特征函数写出来,再看乘积的极限。
联合特征函数定义为
若
成立,则 与 独立。注意:只知道
一般不能推出 独立,因为这只检查了联合特征函数的对角线。
若
且 是某个随机变量 的特征函数,并且在 连续,则
特别地,若极限为
则极限分布是 。
依分布收敛与测试函数
等价于在 的分布函数连续点 处有
也等价于对所有有界连续函数 ,
使用分布函数时只在连续点直接取极限。
若 ,在合适条件下可构造同分布副本
使得
这可以把依分布收敛问题转化为几乎处处收敛问题;但它是一个定理,不能默认原来的 就几乎处处收敛。
若 a.s., a.s.,且每个 下 独立,则 独立。可用有界连续函数判据:对任意有界连续 ,
再由控制收敛定理取极限。
极限定理工具箱
若 独立同分布且 ,则
用于把样本平均替换为理论均值。做题时先检查独立同分布与一阶矩条件。
若 独立同分布,,,则
更一般情形先中心化再除以标准差。使用前先检查均值、方差和独立同分布。
若
则
特别是若分母依概率收敛到 ,则
它常用来处理随机归一化或可忽略误差项。
若所有矩收敛到某个由矩唯一确定的分布的矩,则可推出依分布收敛。标准正态 的奇数阶矩为 ,偶数阶矩为
使用时要说明目标分布由矩唯一确定,不能只写“矩收敛”。
三角阵列
处理
这类每一行都变化的和时,常记
标准化对象为
先算 ,再判断是否满足相应中心极限定理条件。
对任意 ,若
则在适当条件下有中心极限定理。使用步骤:
- 先算 ;
- 再写 Lindeberg 项;
- 用尾部可积性或更强矩条件控制。
若
则 Lindeberg 条件成立。因为在 上有
这是教材中常用的三阶矩快速验证法。
高阶工具:尾界与集中不等式
若 且 ,则
令 得到二阶矩方法:
适合证明“某个结构至少出现一次”。常见做法是令 为出现次数,先算 ,再控制 。
设
若只把不独立的事件对记入
则在很多计数问题中, 且 可以推出 。这是二阶矩法在随机图、随机结构出现问题中的常用模板。
若矩母函数
在相关范围内有限,记
对 ,由指数型 Markov 不等式,
因此通常写成
这一步是许多指数尾界的起点:先写矩母函数,再优化参数 。
若 ,并且存在 使得对所有 ,
则称 是参数为 的次高斯随机变量。它的典型尾界为
有界变量、正态变量以及许多独立和都会给出这种平方指数尾部。
若 相互独立,且 ,令
则 仍是次高斯型,并有
适合处理独立加权和、随机符号和、经验平均偏差等问题。关键是先把方差代理量 算清楚。
若 ,并且存在 使得当 时,
则称 是参数为 的次指数随机变量。其一侧尾界为
直观上,小偏差像次高斯,大偏差变成指数尾。
设 相互独立,,,且
令 、,则常用的一侧 Bernstein 型界为
双侧估计可对 再用一次。它比只用 Chebyshev 更适合处理独立有界变量的偏差。
若
则
常用于证明“某个坏事件只发生有限多次”,从而得到几乎处处的最终上界。若事件 相互独立且 ,则第二 Borel-Cantelli 引理给出 。
常用技术速查
- 要证明依概率收敛:先试高偶数阶矩法或 Chebyshev。
- 要证明依分布收敛到正态:先试 CLT + Slutsky。
- 是三角阵列:检查 Lindeberg 或三阶矩判据。
- 是独立和:考虑特征函数。
- 要证明某个非负计数变量为正:试 Paley-Zygmund 或二阶矩下界。
- 需要指数尾界:先写矩母函数,试 Chernoff-Cramer。
- 是独立加权和:检查是否可用 Hoeffding 型界。
- 是独立有界变量和:考虑 Bernstein 型界。
- 是最大值概率:先试并集界,再配合 Chernoff-Cramer、Hoeffding 或 Bernstein。
- 是几乎处处最终性质:考虑 Borel-Cantelli。
- 是计数问题:写成指标变量之和。
- 是分布函数极限:只在连续点直接取极限。
- 是期望极限但只有依分布收敛:考虑 Skorohod 表示或一致可积性。
概率论里许多“显然”其实依赖可列可加性、单调收敛、独立性、矩条件或极限定理的适用条件。读证明时最好把这些条件逐步标出来。