阅读地图
- 本章从连续型分布、联合分布与边缘分布过渡到机器学习中的最小二乘直觉。
- 读密度函数时要先问两个问题:归一化常数是否存在,支撑集是什么。
- 补充内容可视为条件期望和投影思想的预演。
提示 每次换元前,先确认变换是否一一、Jacobian 是否取绝对值,以及积分区域如何移动。
习题1.5
旁注
连续型分布先看支撑集,再看归一化常数。密度含参数时,先判断积分是否有限。
题目
哪些函数是密度函数? 若是, 求 C 及分布函数 F(x). (1) f(x)={Cx−d,0,x>1x<1.
(2) f(x)=Ce−x−e−x,−∞<x<∞。
解答
1 要使 f(x) 成为密度函数,必须满足规范性 ∫−∞∞f(x)dx=1。
∫1∞Cx−ddx=t→∞lim[1−dCx1−d]1t
为了使广义积分收敛,必须要求 1−d<0,即 d>1。此时积分值为 d−1C。 令 d−1C=1,得到 C=d−1。 此时,分布函数 F(x) 为: 当 x≤1 时,F(x)=0。 当 x>1 时,F(x)=∫1x(d−1)t−ddt=1−x−(d−1)。
2 验证规范性:
∫−∞∞Ce−x−e−xdx
令 u=e−x,则 du=−e−xdx。当 x→−∞ 时 u→∞;x→∞ 时 u→0。
∫∞0Ce−u(−du)=C∫0∞e−udu=C
要成为密度函数,必有 C=1。 其分布函数为:
F(x)=∫−∞xe−t−e−tdt=∫e−x∞e−udu=e−e−x,−∞<x<∞
题目
设 U 为 (0,1) 上某概率空间上均匀分布, F 为严格单调递增的分布函数, 定义新随机变量 Y=F−1(U), Y(ω):=F−1(U(ω)), 证明 Y 的分布函数为 F。
证明
已知 U∼U(0,1),且 F 为严格单调递增的分布函数,因此其反函数 F−1 存在且也是严格单调递增的。 求 Y=F−1(U) 的分布函数 FY(y):
FY(y)=P(Y≤y)=P(F−1(U)≤y)
因为 F 严格单调递增,对不等式两边同时作用 F 函数不改变不等号方向:
P(F−1(U)≤y)=P(U≤F(y))
由于 U 在 (0,1) 上均匀分布,且对于任意实数 y,都有 0≤F(y)≤1。根据均匀分布的性质:
P(U≤F(y))=F(y)
即 FY(y)=F(y),得证。
题目
设 (X,Y) 是取值整数值的随机向量, 它们的联合分布列为 f(x,y). 证明对 x,y∈Z, 有
f(x,y)=P(X≥x,Y≤y)−P(X≥x+1,Y≤y)−P(X≥x,Y≤y−1)+P(X≥x+1,Y≤y−1).
并求掷 r 次均匀骰子中最小值 Xmin 和最大值 Xmax 的联合分布列。
解答
第一部分: 令事件 A={X≥x,Y≤y}。该事件可以分解为:
{X≥x,Y≤y}={X=x,Y≤y}∪{X≥x+1,Y≤y}
这是两个互斥事件,因此:
P(X≥x,Y≤y)=P(X=x,Y≤y)+P(X≥x+1,Y≤y)
整理得:P(X=x,Y≤y)=P(X≥x,Y≤y)−P(X≥x+1,Y≤y) 同理,对于 y−1,有:
P(X=x,Y≤y−1)=P(X≥x,Y≤y−1)−P(X≥x+1,Y≤y−1)
又因为:
{X=x,Y≤y}={X=x,Y=y}∪{X=x,Y≤y−1}
所以:
f(x,y)=P(X=x,Y=y)=P(X=x,Y≤y)−P(X=x,Y≤y−1)
将前面推导的两式代入上式,即得证所需等式。
第二部分: 对于掷 r 次骰子,Xmin≥i 且 Xmax≤j 意味着 r 次掷出的点数全部落在区间 [i,j] 内。 当 1≤i≤j≤6 时,该区间共有 j−i+1 个可能的结果。
P(Xmin≥i,Xmax≤j)=(6j−i+1)r
利用刚才证明的公式,求 f(i,j)=P(Xmin=i,Xmax=j): 当 1≤i<j≤6 时:
f(i,j)=6r(j−i+1)r−2(j−i)r+(j−i−1)r
当 1≤i=j≤6 时,由于必须每次都掷出 i:
f(i,i)=6r1
其余情况 f(i,j)=0。
题目
二元函数
F(x,y)={1−e−x−y,0,x,y≥0否则
是否为某随机向量 (X,Y) 的联合分布函数? 若是, 求出 X 和 Y 的分布函数, 若不是请说明理由。
解答
不是。 我们可以通过验证联合分布函数的"矩形不等式"性质(即分配给任意矩形区域的概率必须非负)来证明。 对于任意 x1<x2,y1<y2,必须满足:
P(x1<X≤x2,y1<Y≤y2)=F(x2,y2)−F(x1,y2)−F(x2,y1)+F(x1,y1)≥0
取 x1=0,x2=1,y1=0,y2=1,代入给定的函数:
F(1,1)−F(0,1)−F(1,0)+F(0,0)=(1−e−2)−(1−e−1)−(1−e−1)+(1−e0)=1−e−2−1+e−1−1+e−1+0=−1+2e−1−e−2=−(1−e−1)2
因为 1−e−1=0,所以 −(1−e−1)2<0。 由于该区域的概率算出来为负数,违背了概率非负性公理,因此它不是任何随机向量的联合分布函数。
题目
X1 和 X2 是两个独立的随机变量且有相同的分布函数 F(x). 记
U=max{X1,X2},V=min{X1,X2},
(1) 求 U 和 V 的分布函数。(2) 求 (U,V) 的联合分布函数。
解答
1 求 U 和 V 的分布函数: 对于 U=max{X1,X2}:
FU(u)=P(U≤u)=P(X1≤u,X2≤u)
由独立性得:
FU(u)=P(X1≤u)P(X2≤u)=F(u)2
对于 V=min{X1,X2}:
FV(v)=P(V≤v)=1−P(V>v)=1−P(X1>v,X2>v)
由独立性得:
FV(v)=1−P(X1>v)P(X2>v)=1−(1−F(v))2=2F(v)−F(v)2
2 求 (U,V) 的联合分布函数: FU,V(u,v)=P(U≤u,V≤v)。由于 V≤U 是必然事件: 情形一:当 u≤v 时,若 U≤u,则必有 V≤u≤v 成立。
FU,V(u,v)=P(U≤u)=F(u)2
情形二:当 u>v 时,使用事件的差集:
P(U≤u,V≤v)=P(U≤u)−P(U≤u,V>v)
其中,事件 {U≤u,V>v} 等价于 {v<X1≤u,v<X2≤u}。由独立性:
P(v<X1≤u,v<X2≤u)=[F(u)−F(v)]2
因此:
FU,V(u,v)=F(u)2−(F(u)−F(v))2=2F(u)F(v)−F(v)2
综上所述,(U,V) 的联合分布函数为:
FU,V(u,v)={F(u)2,2F(u)F(v)−F(v)2,u≤vu>v
习题1.6
旁注
联合分布题最好先画区域。许多错误不是积分本身,而是上下限没有随区域变化。
题目
对 (Borel 可测) 函数 g,h:R→R, 若离散型随机变量 X,Y 独立, 不利用定理 1.6.4 而直接证明 g(X),h(Y) 亦独立。
证明
令 U=g(X),V=h(Y)。因为 X,Y 是离散型随机变量,所以 U,V 也是离散型随机变量。 对于 U 和 V 能取到的任意一对值 u 和 v,根据定义有:
P(U=u,V=v)=P(g(X)=u,h(Y)=v)=P(X∈g−1(u),Y∈h−1(v))
其中 g−1(u)={x∣g(x)=u}, h−1(v)={y∣h(y)=v}。 由于 X,Y 相互独立,其联合概率满足边缘概率的乘积:
P(X∈g−1(u),Y∈h−1(v))=x∈g−1(u)∑y∈h−1(v)∑P(X=x,Y=y)=x∈g−1(u)∑y∈h−1(v)∑P(X=x)P(Y=y)=x∈g−1(u)∑P(X=x)y∈h−1(v)∑P(Y=y)=P(X∈g−1(u))P(Y∈h−1(v))=P(g(X)=u)P(h(Y)=v)=P(U=u)P(V=v)
因此,g(X) 与 h(Y) 相互独立。
题目
设取值为正整数随机变量 X1,X2,X3 相互独立, 它们的分布列为
P(Xi=x)=(1−pi)pix−1,i=1,2,3.
(1) 证明
P(X1<X2<X3)=(1−p2p3)(1−p1p2p3)(1−p1)(1−p2)p2p32.
(2) 求 P(X1≤X2≤X3)。
解答
1 证明:由于 X1,X2,X3 相互独立,有:
P(X1<X2<X3)=x1=1∑∞x2=x1+1∑∞x3=x2+1∑∞P(X1=x1)P(X2=x2)P(X3=x3)
先计算最内层的求和:
x3=x2+1∑∞(1−p3)p3x3−1=p3x2
代入第二层求和:
x2=x1+1∑∞(1−p2)p2x2−1p3x2=(1−p2)p3x2=x1+1∑∞(p2p3)x2−1=(1−p2)p31−p2p3(p2p3)x1
代入最外层求和:
P(X1<X2<X3)=x1=1∑∞(1−p1)p1x1−11−p2p3(1−p2)p3(p2p3)x1=1−p2p3(1−p1)(1−p2)p2p32x1=1∑∞(p1p2p3)x1−1=(1−p2p3)(1−p1p2p3)(1−p1)(1−p2)p2p32
得证。
2 求 P(X1≤X2≤X3): 同理,改变求和的下界:
P(X1≤X2≤X3)=x1=1∑∞x2=x1∑∞x3=x2∑∞P(X1=x1)P(X2=x2)P(X3=x3)
最内层求和:
x3=x2∑∞(1−p3)p3x3−1=p3x2−1
第二层求和:
x2=x1∑∞(1−p2)p2x2−1p3x2−1=(1−p2)1−p2p3(p2p3)x1−1
最外层求和:
P(X1≤X2≤X3)=x1=1∑∞(1−p1)p1x1−11−p2p3(1−p2)(p2p3)x1−1=1−p2p3(1−p1)(1−p2)x1=1∑∞(p1p2p3)x1−1=(1−p2p3)(1−p1p2p3)(1−p1)(1−p2)
题目
设连续型随机变量 X1,X2,X3,X4,X5 相互独立且有相同的分布函数 F, 令
I=P(X1<X2<X3<X4<X5).
证明 I 与 F 无关, 并求 I 的值。
证明
由于 X1,X2,X3,X4,X5 是相互独立且同分布的连续型随机变量,它们取值相等的概率为 0。 这 5 个随机变量的大小排列共有 5!=120 种可能,且由对称性可知,每种排列出现的概率是相等的。 X1<X2<X3<X4<X5 只是这 120 种排列中的特定一种。 因此:
I=P(X1<X2<X3<X4<X5)=5!1=1201
显然,该结果是一个常数,与具体的分布函数 F 无关。
题目
在线段 [0,1] 上任意投掷 3 个点, 各个点独立且均服从均匀分布, 求: (1) 中间点的分布函数。(2) 最左边点和最右边点的联合密度。
解答
设这三个点的位置分别为 X1,X2,X3∼U(0,1),且相互独立。将其排序得到次序统计量 X(1)≤X(2)≤X(3)。
1 中间点 X(2) 的分布函数: 对于 x∈[0,1],中间点小于等于 x 等价于这三个点中至少有 2 个点小于等于 x。 这等价于进行 3 次独立的伯努利试验,每次成功的概率为 x。
F(2)(x)=P(X(2)≤x)=(23)x2(1−x)+(33)x3=3x2−2x3
(当 x<0 时 F=0;当 x>1 时 F=1)
2 最左边点与最右边点的联合密度: 令 U=X(1), V=X(3)。对于 0≤u≤v≤1:
P(U>u,V≤v)=P(三个点均落在 (u,v] 内)=(v−u)3
另一方面,利用联合分布函数:
P(U>u,V≤v)=P(V≤v)−P(U≤u,V≤v)=FV(v)−FU,V(u,v)
因此联合分布函数为 FU,V(u,v)=FV(v)−(v−u)3。 对其求混合偏导数得到联合密度函数:
fU,V(u,v)=∂u∂v∂2FU,V(u,v)=∂u∂v∂2[−(v−u)3]=∂u∂[−3(v−u)2]=6(v−u)
所以,当 0≤u≤v≤1 时,联合密度为 f(u,v)=6(v−u);其余区域为 0。
补充内容:机器学习基础
旁注
最小二乘既可作代数计算,也可看作 Hilbert 空间投影;这也是条件期望与预测问题的自然接口。
1. 问题与动机
在机器学习的回归任务中,我们将特征(Feature)和标签(Label)分别抽象为同一概率空间上的随机变量 X 和 Y。核心目标是寻找一个最优的预测函数 g(⋅),使得预测值 g(X) 与真实值 Y 之间的差异最小。
数学上,我们通常采用均方误差(Mean Squared Error, MSE)作为风险函数。为保证几何结构良好,假设 Y 具有二阶矩(即 Y∈L2),且预测函数 g 满足 E[g(X)2]<∞。寻找最优预测模型即求解以下极值问题:
g∗=argmingE[(Y−g(X))2]
2. 最优预测的求解
我们将通过代数与几何两种视角证明:在均方误差准则下,最优预测函数正是条件期望,即 g∗(X)=E[Y∣X]。
视角一:代数配方法
利用期望的线性性质,我们在均方误差中"加上并减去"条件期望 E[Y∣X],进行配方展开:
E[(Y−g(X))2]=E[((Y−E[Y∣X])+(E[Y∣X]−g(X)))2]=E[(Y−E[Y∣X])2]+2E[(Y−E[Y∣X])(E[Y∣X]−g(X))]+E[(E[Y∣X]−g(X))2]
根据全期望公式(平滑定理),交叉项恒为 0:
E[E[(Y−E[Y∣X])(E[Y∣X]−g(X))∣X]]=E(E[Y∣X]−g(X))=0E[Y−E[Y∣X]∣X]=0
极值问题化简为:
E[(Y−g(X))2]=E[(Y−E[Y∣X])2]+E[(E[Y∣X]−g(X))2]
要使整体均方误差最小,必须让非负的第二项为 0,即最优预测为 g∗(X)=E[Y∣X] (a.s.)。
视角二:几何投影法(Hilbert 空间)
既然同学们正在学习实分析与线性代数,我们可以将概率论问题转化为泛函分析中的几何问题。 所有满足二阶矩有限的随机变量构成了一个 Hilbert 空间 L2(Ω,F,P)。在该空间中,内积定义为 ⟨X,Y⟩=E[XY],距离的平方即均方误差 ∥X−Y∥2=E[(X−Y)2]。所有形如 g(X) 的可测函数构成了一个闭子空间 HX。求解 g∗(X) 本质上是在 HX 中寻找距离 Y 最近的点 Y^。
第一步:距离最小等价于正交。
记误差向量为 e=Y−Y^。假设存在某个 V∈HX 使得 ⟨e,V⟩=0。我们构造受微扰的预测 Y^+tV∈HX,其距离平方为:
f(t)=∥Y−(Y^+tV)∥2=∥e−tV∥2=∥e∥2−2t⟨e,V⟩+t2∥V∥2
这是一个关于 t 的二次函数,在 t=0 处的导数为 f′(0)=−2⟨e,V⟩=0。这意味着我们总能沿着梯度的反方向稍微移动一点(取充分小的 t),使得 f(t)<∥e∥2,但这与 Y^ 是最近点相矛盾!因此,误差向量必须与子空间正交:⟨Y−Y^,V⟩=0。
第二步:条件期望即为正交投影。
令 Y^=E[Y∣X],我们验证其误差是否与任意 V=g(X) 正交。同样利用平滑定理:
⟨Y−E[Y∣X],g(X)⟩=E[(Y−E[Y∣X])g(X)]=E[g(X)(E[Y∣X]−E[Y∣X])]=0
这从几何上严格证明了:条件期望 E[Y∣X] 就是 Y 在由 X 生成的信息空间上的正交投影。
3. 从概率到统计:现实世界中的预测
概率论与统计学的核心分界
在前文的推导中,我们得到了理论上的最优预测函数 g∗(x)=E[Y∣X=x]。请注意,计算条件期望需要完全知晓 X 和 Y 的联合概率分布。这正是概率论的典型范式(正向演绎):假设数据生成的底层物理法则(分布与参数)已知,去研究随机变量的性质和最优解。
然而,在统计学与机器学习面临的现实问题中(逆向),真实的联合分布永远是个黑盒。我们拥有的仅仅是从该分布中独立同分布(i.i.d.)采样得到的一组有限数据 D={(x1,y1),(x2,y2),…,(xn,yn)}。我们只能利用这组样本训练出一个估计模型 f^D(x),去逼近那个未知的、完美的条件期望 f(x)=E[Y∣X=x]。
既然训练集 D 是随机采样的,那么我们训练出来的模型 f^D(x) 本质上也是一个随机变量。评估一个机器学习模型的好坏,不仅要看它在某一个特定数据集上的表现,更要看它在所有可能抽取的数据集上的"期望表现"。
4. Bias-Variance Decomposition
假设真实的客观规律为 Y=f(x)+ϵ,其中 f(x)=E[Y∣X=x] 是真实的最佳预测,ϵ 是不可预测的客观随机噪声,满足 E[ϵ]=0 且 Var(ϵ)=σ2。
对于给定的测试点 x,我们用基于随机数据集 D 训练出的模型 f^(x) 去预测全新的观测值 Y。我们来考察这个预测过程的期望泛化误差(对所有可能的数据集 D 和噪声 ϵ 求期望):
Err(x)=ED,ϵ[(Y−f^(x))2]
为了看清误差的来源,我们使用数学中经典的"加一项减一项"配方技巧。在括号内同时加上并减去模型预测的期望值 ED[f^(x)] 以及真实函数 f(x):
Err(x)=E[(f(x)+ϵ−f^(x))2]=E[((f(x)−E[f^(x)])+(E[f^(x)]−f^(x))+ϵ)2]
将其展开为三项平方和与三个交叉项。由于噪声 ϵ 独立于模型 f^,且 E[ϵ]=0;同时 E[E[f^(x)]−f^(x)]=0,所有的交叉乘积项在取期望后全部消掉(同学们可作为课后练习自行验证正交性)。最终,误差被极其优美地分解为三个纯粹的部分:
Err(x)=偏差的平方 (Bias2)(f(x)−E[f^(x)])2+方差 (Variance)E[(f^(x)−E[f^(x)])2]+不可约误差 (Irreducible Error)σ2
数学与物理直觉解读:
-
偏差 (Bias):E[f^(x)]−f(x)。衡量了我们模型的"平均预测"与"真实客观规律"之间的距离。偏差大,说明模型本身表达能力不足(例如用线性方程去拟合非线性曲线),这在机器学习中被称为欠拟合 (Underfitting)。
-
方差 (Variance):Var(f^(x))。衡量了模型在不同训练集 D 之间跳跃的剧烈程度。方差大,说明模型过于敏感,把某次采样中的偶然噪声也当成了规律学了进去,这被称为过拟合 (Overfitting)。
-
不可约误差 (σ2):这是客观世界固有的随机性(例如测量仪器的物理精度极限)。无论你设计多么精妙的算法,均方误差都不可能低于这个下界 σ2。
在机器学习中,如果我们把模型变复杂,偏差会减小,但方差会急剧增大;反之亦然。寻找最优模型的本质,就是在无穷维的函数空间中,寻找使得 Bias2+Variance 达到极小的平衡点。
章末回看
- 本章原始题目和解答正文来自对应 TeX 分文件。
- 可先只看题目框,写出关键等式后再展开证明或解答。
- 若结论用到独立性、可列可加性、换元公式或矩条件,最好顺手标明。