第二次习题课

刘景寒

目录
阅读地图
  • 本章从连续型分布、联合分布与边缘分布过渡到机器学习中的最小二乘直觉。
  • 读密度函数时要先问两个问题:归一化常数是否存在,支撑集是什么。
  • 补充内容可视为条件期望和投影思想的预演。

提示 每次换元前,先确认变换是否一一、Jacobian 是否取绝对值,以及积分区域如何移动。

习题1.5

旁注

连续型分布先看支撑集,再看归一化常数。密度含参数时,先判断积分是否有限。

题目

哪些函数是密度函数? 若是, 求 CC 及分布函数 F(x)F(x). (1) f(x)={Cxd,x>10,x<1f(x) = \begin{cases} Cx^{-d}, & x > 1 \\ 0, & x < 1 \end{cases}.
(2) f(x)=Cexex,<x<f(x) = C e^{-x-e^{-x}}, -\infty < x < \infty

解答

11 要使 f(x)f(x) 成为密度函数,必须满足规范性 f(x)dx=1\int_{-\infty}^{\infty} f(x)\mathrm{d}x = 1

1Cxddx=limt[C1dx1d]1t\int_1^{\infty} C x^{-d} \mathrm{d}x = \lim_{t \to \infty} \left[ \frac{C}{1-d} x^{1-d} \right]_1^t

为了使广义积分收敛,必须要求 1d<01-d < 0,即 d>1d > 1。此时积分值为 Cd1\frac{C}{d-1}。 令 Cd1=1\frac{C}{d-1} = 1,得到 C=d1C = d - 1。 此时,分布函数 F(x)F(x) 为: 当 x1x \le 1 时,F(x)=0F(x) = 0。 当 x>1x > 1 时,F(x)=1x(d1)tddt=1x(d1)F(x) = \int_1^x (d-1)t^{-d} \mathrm{d}t = 1 - x^{-(d-1)}

22 验证规范性:

Cexexdx\int_{-\infty}^{\infty} C e^{-x-e^{-x}} \mathrm{d}x

u=exu = e^{-x},则 du=exdx\mathrm{d}u = -e^{-x}\mathrm{d}x。当 xx \to -\inftyuu \to \inftyxx \to \inftyu0u \to 0

0Ceu(du)=C0eudu=C\int_{\infty}^{0} C e^{-u} (-\mathrm{d}u) = C \int_0^{\infty} e^{-u} \mathrm{d}u = C

要成为密度函数,必有 C=1C = 1。 其分布函数为:

F(x)=xetetdt=exeudu=eex,<x<F(x) = \int_{-\infty}^x e^{-t-e^{-t}} \mathrm{d}t = \int_{e^{-x}}^{\infty} e^{-u} \mathrm{d}u = e^{-e^{-x}}, \quad -\infty < x < \infty
题目

UU(0,1)(0,1) 上某概率空间上均匀分布, FF 为严格单调递增的分布函数, 定义新随机变量 Y=F1(U)Y = F^{-1}(U), Y(ω):=F1(U(ω))Y(\omega) := F^{-1}(U(\omega)), 证明 YY 的分布函数为 FF

证明

已知 UU(0,1)U \sim U(0,1),且 FF 为严格单调递增的分布函数,因此其反函数 F1F^{-1} 存在且也是严格单调递增的。 求 Y=F1(U)Y = F^{-1}(U) 的分布函数 FY(y)F_Y(y)

FY(y)=P(Yy)=P(F1(U)y)F_Y(y) = \mathbb{P}(Y \le y) = \mathbb{P}(F^{-1}(U) \le y)

因为 FF 严格单调递增,对不等式两边同时作用 FF 函数不改变不等号方向:

P(F1(U)y)=P(UF(y))\mathbb{P}(F^{-1}(U) \le y) = \mathbb{P}(U \le F(y))

由于 UU(0,1)(0,1) 上均匀分布,且对于任意实数 yy,都有 0F(y)10 \le F(y) \le 1。根据均匀分布的性质:

P(UF(y))=F(y)\mathbb{P}(U \le F(y)) = F(y)

FY(y)=F(y)F_Y(y) = F(y),得证。

题目

(X,Y)(X, Y) 是取值整数值的随机向量, 它们的联合分布列为 f(x,y)f(x, y). 证明对 x,yZx, y \in \mathbb{Z}, 有

f(x,y)=P(Xx,Yy)P(Xx+1,Yy)P(Xx,Yy1)+P(Xx+1,Yy1).\begin{aligned} f(x, y) &= \mathbb{P}(X \ge x, Y \le y) - \mathbb{P}(X \ge x+1, Y \le y) \\ &\quad - \mathbb{P}(X \ge x, Y \le y-1) + \mathbb{P}(X \ge x+1, Y \le y-1). \end{aligned}

并求掷 rr 次均匀骰子中最小值 XminX_{\min} 和最大值 XmaxX_{\max} 的联合分布列。

解答

第一部分: 令事件 A={Xx,Yy}A = \{X \ge x, Y \le y\}。该事件可以分解为:

{Xx,Yy}={X=x,Yy}{Xx+1,Yy}\{X \ge x, Y \le y\} = \{X = x, Y \le y\} \cup \{X \ge x+1, Y \le y\}

这是两个互斥事件,因此:

P(Xx,Yy)=P(X=x,Yy)+P(Xx+1,Yy)\mathbb{P}(X \ge x, Y \le y) = \mathbb{P}(X = x, Y \le y) + \mathbb{P}(X \ge x+1, Y \le y)

整理得:P(X=x,Yy)=P(Xx,Yy)P(Xx+1,Yy)\mathbb{P}(X = x, Y \le y) = \mathbb{P}(X \ge x, Y \le y) - \mathbb{P}(X \ge x+1, Y \le y) 同理,对于 y1y-1,有:

P(X=x,Yy1)=P(Xx,Yy1)P(Xx+1,Yy1)\mathbb{P}(X = x, Y \le y-1) = \mathbb{P}(X \ge x, Y \le y-1) - \mathbb{P}(X \ge x+1, Y \le y-1)

又因为:

{X=x,Yy}={X=x,Y=y}{X=x,Yy1}\{X = x, Y \le y\} = \{X = x, Y = y\} \cup \{X = x, Y \le y-1\}

所以:

f(x,y)=P(X=x,Y=y)=P(X=x,Yy)P(X=x,Yy1)f(x,y) = \mathbb{P}(X = x, Y = y) = \mathbb{P}(X = x, Y \le y) - \mathbb{P}(X = x, Y \le y-1)

将前面推导的两式代入上式,即得证所需等式。

第二部分: 对于掷 rr 次骰子,XminiX_{\min} \ge iXmaxjX_{\max} \le j 意味着 rr 次掷出的点数全部落在区间 [i,j][i, j] 内。 当 1ij61 \le i \le j \le 6 时,该区间共有 ji+1j-i+1 个可能的结果。

P(Xmini,Xmaxj)=(ji+16)r\mathbb{P}(X_{\min} \ge i, X_{\max} \le j) = \left( \frac{j-i+1}{6} \right)^r

利用刚才证明的公式,求 f(i,j)=P(Xmin=i,Xmax=j)f(i, j) = \mathbb{P}(X_{\min} = i, X_{\max} = j): 当 1i<j61 \le i < j \le 6 时:

f(i,j)=(ji+1)r2(ji)r+(ji1)r6rf(i,j) = \frac{(j-i+1)^r - 2(j-i)^r + (j-i-1)^r}{6^r}

1i=j61 \le i = j \le 6 时,由于必须每次都掷出 ii

f(i,i)=16rf(i,i) = \frac{1}{6^r}

其余情况 f(i,j)=0f(i,j) = 0

题目

二元函数

F(x,y)={1exy,x,y00,否则F(x, y) = \begin{cases} 1 - e^{-x-y}, & x, y \ge 0 \\ 0, & \text{否则} \end{cases}

是否为某随机向量 (X,Y)(X, Y) 的联合分布函数? 若是, 求出 XXYY 的分布函数, 若不是请说明理由。

解答

不是。 我们可以通过验证联合分布函数的"矩形不等式"性质(即分配给任意矩形区域的概率必须非负)来证明。 对于任意 x1<x2,y1<y2x_1 < x_2, y_1 < y_2,必须满足:

P(x1<Xx2,y1<Yy2)=F(x2,y2)F(x1,y2)F(x2,y1)+F(x1,y1)0\mathbb{P}(x_1 < X \le x_2, y_1 < Y \le y_2) = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1) + F(x_1, y_1) \ge 0

x1=0,x2=1,y1=0,y2=1x_1 = 0, x_2 = 1, y_1 = 0, y_2 = 1,代入给定的函数:

F(1,1)F(0,1)F(1,0)+F(0,0)=(1e2)(1e1)(1e1)+(1e0)=1e21+e11+e1+0=1+2e1e2=(1e1)2\begin{aligned} & F(1,1) - F(0,1) - F(1,0) + F(0,0) \\ &= (1 - e^{-2}) - (1 - e^{-1}) - (1 - e^{-1}) + (1 - e^0) \\ &= 1 - e^{-2} - 1 + e^{-1} - 1 + e^{-1} + 0 \\ &= -1 + 2e^{-1} - e^{-2} = -(1 - e^{-1})^2 \end{aligned}

因为 1e101 - e^{-1} \neq 0,所以 (1e1)2<0-(1 - e^{-1})^2 < 0。 由于该区域的概率算出来为负数,违背了概率非负性公理,因此它不是任何随机向量的联合分布函数。

题目

X1X_1X2X_2 是两个独立的随机变量且有相同的分布函数 F(x)F(x). 记

U=max{X1,X2},V=min{X1,X2},U = \max\{X_1, X_2\}, \quad V = \min\{X_1, X_2\},

(1) 求 UUVV 的分布函数。(2) 求 (U,V)(U, V) 的联合分布函数。

解答

11UUVV 的分布函数: 对于 U=max{X1,X2}U = \max\{X_1, X_2\}

FU(u)=P(Uu)=P(X1u,X2u)F_U(u) = \mathbb{P}(U \le u) = \mathbb{P}(X_1 \le u, X_2 \le u)

由独立性得:

FU(u)=P(X1u)P(X2u)=F(u)2F_U(u) = \mathbb{P}(X_1 \le u)\mathbb{P}(X_2 \le u) = F(u)^2

对于 V=min{X1,X2}V = \min\{X_1, X_2\}

FV(v)=P(Vv)=1P(V>v)=1P(X1>v,X2>v)F_V(v) = \mathbb{P}(V \le v) = 1 - \mathbb{P}(V > v) = 1 - \mathbb{P}(X_1 > v, X_2 > v)

由独立性得:

FV(v)=1P(X1>v)P(X2>v)=1(1F(v))2=2F(v)F(v)2F_V(v) = 1 - \mathbb{P}(X_1 > v)\mathbb{P}(X_2 > v) = 1 - (1 - F(v))^2 = 2F(v)-{F(v)}^2

22(U,V)(U, V) 的联合分布函数: FU,V(u,v)=P(Uu,Vv)F_{U,V}(u,v) = \mathbb{P}(U \le u, V \le v)。由于 VUV \le U 是必然事件: 情形一:当 uvu \le v 时,若 UuU \le u,则必有 VuvV \le u \le v 成立。

FU,V(u,v)=P(Uu)=F(u)2F_{U,V}(u,v) = \mathbb{P}(U \le u) = F(u)^2

情形二:当 u>vu > v 时,使用事件的差集:

P(Uu,Vv)=P(Uu)P(Uu,V>v)\mathbb{P}(U \le u, V \le v) = \mathbb{P}(U \le u) - \mathbb{P}(U \le u, V > v)

其中,事件 {Uu,V>v}\{U \le u, V > v\} 等价于 {v<X1u,v<X2u}\{v < X_1 \le u, v < X_2 \le u\}。由独立性:

P(v<X1u,v<X2u)=[F(u)F(v)]2\mathbb{P}(v < X_1 \le u, v < X_2 \le u) = [F(u) - F(v)]^2

因此:

FU,V(u,v)=F(u)2(F(u)F(v))2=2F(u)F(v)F(v)2F_{U,V}(u,v) = F(u)^2 - (F(u) - F(v))^2 = 2F(u)F(v) - F(v)^2

综上所述,(U,V)(U, V) 的联合分布函数为:

FU,V(u,v)={F(u)2,uv2F(u)F(v)F(v)2,u>vF_{U,V}(u,v) = \begin{cases} F(u)^2, & u \le v \\ 2F(u)F(v) - F(v)^2, & u > v \end{cases}

习题1.6

旁注

联合分布题最好先画区域。许多错误不是积分本身,而是上下限没有随区域变化。

题目

对 (Borel 可测) 函数 g,h:RRg, h: \mathbb{R} \to \mathbb{R}, 若离散型随机变量 X,YX, Y 独立, 不利用定理 1.6.4 而直接证明 g(X),h(Y)g(X), h(Y) 亦独立。

证明

U=g(X),V=h(Y)U = g(X), V = h(Y)。因为 X,YX, Y 是离散型随机变量,所以 U,VU, V 也是离散型随机变量。 对于 UUVV 能取到的任意一对值 uuvv,根据定义有:

P(U=u,V=v)=P(g(X)=u,h(Y)=v)=P(Xg1(u),Yh1(v))\mathbb{P}(U = u, V = v) = \mathbb{P}(g(X) = u, h(Y) = v) = \mathbb{P}(X \in g^{-1}(u), Y \in h^{-1}(v))

其中 g1(u)={xg(x)=u}g^{-1}(u) = \{x \mid g(x) = u\}h1(v)={yh(y)=v}h^{-1}(v) = \{y \mid h(y) = v\}。 由于 X,YX, Y 相互独立,其联合概率满足边缘概率的乘积:

P(Xg1(u),Yh1(v))=xg1(u)yh1(v)P(X=x,Y=y)=xg1(u)yh1(v)P(X=x)P(Y=y)=(xg1(u)P(X=x))(yh1(v)P(Y=y))=P(Xg1(u))P(Yh1(v))=P(g(X)=u)P(h(Y)=v)=P(U=u)P(V=v)\begin{aligned} \mathbb{P}(X \in g^{-1}(u), Y \in h^{-1}(v)) &= \sum_{x \in g^{-1}(u)} \sum_{y \in h^{-1}(v)} \mathbb{P}(X = x, Y = y) \\ &= \sum_{x \in g^{-1}(u)} \sum_{y \in h^{-1}(v)} \mathbb{P}(X = x)\mathbb{P}(Y = y) \\ &= \left( \sum_{x \in g^{-1}(u)} \mathbb{P}(X = x) \right) \left( \sum_{y \in h^{-1}(v)} \mathbb{P}(Y = y) \right) \\ &= \mathbb{P}(X \in g^{-1}(u)) \mathbb{P}(Y \in h^{-1}(v)) \\ &= \mathbb{P}(g(X) = u) \mathbb{P}(h(Y) = v) \\ &= \mathbb{P}(U = u) \mathbb{P}(V = v) \end{aligned}

因此,g(X)g(X)h(Y)h(Y) 相互独立。

题目

设取值为正整数随机变量 X1,X2,X3X_1, X_2, X_3 相互独立, 它们的分布列为

P(Xi=x)=(1pi)pix1,i=1,2,3.\mathbb{P}(X_i = x) = (1 - p_i)p_i^{x-1}, i = 1, 2, 3.

(1) 证明

P(X1<X2<X3)=(1p1)(1p2)p2p32(1p2p3)(1p1p2p3).\mathbb{P}(X_1 < X_2 < X_3) = \frac{(1 - p_1)(1 - p_2)p_2p_3^2}{(1 - p_2p_3)(1 - p_1p_2p_3)}.

(2) 求 P(X1X2X3)\mathbb{P}(X_1 \le X_2 \le X_3)

解答

11 证明:由于 X1,X2,X3X_1, X_2, X_3 相互独立,有:

P(X1<X2<X3)=x1=1x2=x1+1x3=x2+1P(X1=x1)P(X2=x2)P(X3=x3)\mathbb{P}(X_1 < X_2 < X_3) = \sum_{x_1=1}^{\infty} \sum_{x_2=x_1+1}^{\infty} \sum_{x_3=x_2+1}^{\infty} \mathbb{P}(X_1=x_1)\mathbb{P}(X_2=x_2)\mathbb{P}(X_3=x_3)

先计算最内层的求和:

x3=x2+1(1p3)p3x31=p3x2\sum_{x_3=x_2+1}^{\infty} (1-p_3)p_3^{x_3-1} = p_3^{x_2}

代入第二层求和:

x2=x1+1(1p2)p2x21p3x2=(1p2)p3x2=x1+1(p2p3)x21=(1p2)p3(p2p3)x11p2p3\sum_{x_2=x_1+1}^{\infty} (1-p_2)p_2^{x_2-1} p_3^{x_2} = (1-p_2)p_3 \sum_{x_2=x_1+1}^{\infty} (p_2p_3)^{x_2-1} = (1-p_2)p_3 \frac{(p_2p_3)^{x_1}}{1-p_2p_3}

代入最外层求和:

P(X1<X2<X3)=x1=1(1p1)p1x11(1p2)p3(p2p3)x11p2p3=(1p1)(1p2)p2p321p2p3x1=1(p1p2p3)x11=(1p1)(1p2)p2p32(1p2p3)(1p1p2p3)\begin{aligned} \mathbb{P}(X_1 < X_2 < X_3) &= \sum_{x_1=1}^{\infty} (1-p_1)p_1^{x_1-1} \frac{(1-p_2)p_3 (p_2p_3)^{x_1}}{1-p_2p_3} \\ &= \frac{(1-p_1)(1-p_2)p_2p_3^2}{1-p_2p_3} \sum_{x_1=1}^{\infty} (p_1p_2p_3)^{x_1-1} \\ &= \frac{(1-p_1)(1-p_2)p_2p_3^2}{(1-p_2p_3)(1-p_1p_2p_3)} \end{aligned}

得证。

22P(X1X2X3)\mathbb{P}(X_1 \le X_2 \le X_3): 同理,改变求和的下界:

P(X1X2X3)=x1=1x2=x1x3=x2P(X1=x1)P(X2=x2)P(X3=x3)\mathbb{P}(X_1 \le X_2 \le X_3) = \sum_{x_1=1}^{\infty} \sum_{x_2=x_1}^{\infty} \sum_{x_3=x_2}^{\infty} \mathbb{P}(X_1=x_1)\mathbb{P}(X_2=x_2)\mathbb{P}(X_3=x_3)

最内层求和:

x3=x2(1p3)p3x31=p3x21\sum_{x_3=x_2}^{\infty} (1-p_3)p_3^{x_3-1} = p_3^{x_2-1}

第二层求和:

x2=x1(1p2)p2x21p3x21=(1p2)(p2p3)x111p2p3\sum_{x_2=x_1}^{\infty} (1-p_2)p_2^{x_2-1} p_3^{x_2-1} = (1-p_2) \frac{(p_2p_3)^{x_1-1}}{1-p_2p_3}

最外层求和:

P(X1X2X3)=x1=1(1p1)p1x11(1p2)(p2p3)x111p2p3=(1p1)(1p2)1p2p3x1=1(p1p2p3)x11=(1p1)(1p2)(1p2p3)(1p1p2p3)\begin{aligned} \mathbb{P}(X_1 \le X_2 \le X_3) &= \sum_{x_1=1}^{\infty} (1-p_1)p_1^{x_1-1} \frac{(1-p_2)(p_2p_3)^{x_1-1}}{1-p_2p_3} \\ &= \frac{(1-p_1)(1-p_2)}{1-p_2p_3} \sum_{x_1=1}^{\infty} (p_1p_2p_3)^{x_1-1} \\ &= \frac{(1-p_1)(1-p_2)}{(1-p_2p_3)(1-p_1p_2p_3)} \end{aligned}
题目

设连续型随机变量 X1,X2,X3,X4,X5X_1, X_2, X_3, X_4, X_5 相互独立且有相同的分布函数 FF, 令

I=P(X1<X2<X3<X4<X5).I = \mathbb{P}(X_1 < X_2 < X_3 < X_4 < X_5).

证明 IIFF 无关, 并求 II 的值。

证明

由于 X1,X2,X3,X4,X5X_1, X_2, X_3, X_4, X_5 是相互独立且同分布的连续型随机变量,它们取值相等的概率为 00。 这 55 个随机变量的大小排列共有 5!=1205! = 120 种可能,且由对称性可知,每种排列出现的概率是相等的。 X1<X2<X3<X4<X5X_1 < X_2 < X_3 < X_4 < X_5 只是这 120120 种排列中的特定一种。 因此:

I=P(X1<X2<X3<X4<X5)=15!=1120I = \mathbb{P}(X_1 < X_2 < X_3 < X_4 < X_5) = \frac{1}{5!} = \frac{1}{120}

显然,该结果是一个常数,与具体的分布函数 FF 无关。

题目

在线段 [0,1][0, 1] 上任意投掷 3 个点, 各个点独立且均服从均匀分布, 求: (1) 中间点的分布函数。(2) 最左边点和最右边点的联合密度。

解答

设这三个点的位置分别为 X1,X2,X3U(0,1)X_1, X_2, X_3 \sim U(0,1),且相互独立。将其排序得到次序统计量 X(1)X(2)X(3)X_{(1)} \le X_{(2)} \le X_{(3)}

11 中间点 X(2)X_{(2)} 的分布函数: 对于 x[0,1]x \in [0, 1],中间点小于等于 xx 等价于这三个点中至少有 22 个点小于等于 xx。 这等价于进行 33 次独立的伯努利试验,每次成功的概率为 xx

F(2)(x)=P(X(2)x)=(32)x2(1x)+(33)x3=3x22x3F_{(2)}(x) = \mathbb{P}(X_{(2)} \le x) = \binom{3}{2} x^2 (1-x) + \binom{3}{3} x^3 = 3x^2 - 2x^3

(当 x<0x < 0F=0F=0;当 x>1x > 1F=1F=1)

22 最左边点与最右边点的联合密度: 令 U=X(1)U = X_{(1)}, V=X(3)V = X_{(3)}。对于 0uv10 \le u \le v \le 1

P(U>u,Vv)=P(三个点均落在 (u,v] 内)=(vu)3\mathbb{P}(U > u, V \le v) = \mathbb{P}(\text{三个点均落在 } (u, v] \text{ 内}) = (v-u)^3

另一方面,利用联合分布函数:

P(U>u,Vv)=P(Vv)P(Uu,Vv)=FV(v)FU,V(u,v)\mathbb{P}(U > u, V \le v) = \mathbb{P}(V \le v) - \mathbb{P}(U \le u, V \le v) = F_V(v) - F_{U,V}(u,v)

因此联合分布函数为 FU,V(u,v)=FV(v)(vu)3F_{U,V}(u,v) = F_V(v) - (v-u)^3。 对其求混合偏导数得到联合密度函数:

fU,V(u,v)=2FU,V(u,v)uv=2uv[(vu)3]=u[3(vu)2]=6(vu)f_{U,V}(u,v) = \frac{\partial^2 F_{U,V}(u,v)}{\partial u \partial v} = \frac{\partial^2}{\partial u \partial v} [-(v-u)^3] = \frac{\partial}{\partial u} [-3(v-u)^2] = 6(v-u)

所以,当 0uv10 \le u \le v \le 1 时,联合密度为 f(u,v)=6(vu)f(u,v) = 6(v-u);其余区域为 00

补充内容:机器学习基础

旁注

最小二乘既可作代数计算,也可看作 Hilbert 空间投影;这也是条件期望与预测问题的自然接口。

1. 问题与动机

在机器学习的回归任务中,我们将特征(Feature)和标签(Label)分别抽象为同一概率空间上的随机变量 XXYY。核心目标是寻找一个最优的预测函数 g()g(\cdot),使得预测值 g(X)g(X) 与真实值 YY 之间的差异最小。

数学上,我们通常采用均方误差(Mean Squared Error, MSE)作为风险函数。为保证几何结构良好,假设 YY 具有二阶矩(即 YL2Y \in L^2),且预测函数 gg 满足 E[g(X)2]<\mathbb{E}[g(X)^2] < \infty。寻找最优预测模型即求解以下极值问题:

g=argmingE[(Yg(X))2]g^\ast = \mathop{\arg\min}_{g} \mathbb{E}[(Y - g(X))^2]

2. 最优预测的求解

我们将通过代数与几何两种视角证明:在均方误差准则下,最优预测函数正是条件期望,即 g(X)=E[YX]g^\ast(X) = \mathbb{E}[Y|X]

视角一:代数配方法

利用期望的线性性质,我们在均方误差中"加上并减去"条件期望 E[YX]\mathbb{E}[Y|X],进行配方展开:

E[(Yg(X))2]=E[((YE[YX])+(E[YX]g(X)))2]=E[(YE[YX])2]+2E[(YE[YX])(E[YX]g(X))]+E[(E[YX]g(X))2]\begin{aligned} \mathbb{E}[(Y-g(X))^2] &= \mathbb{E}\left[\left((Y-\mathbb{E}[Y|X])+(\mathbb{E}[Y|X]-g(X))\right)^2\right] \\ &= \mathbb{E}[(Y-\mathbb{E}[Y|X])^2] + 2\mathbb{E}[(Y-\mathbb{E}[Y|X])(\mathbb{E}[Y|X]-g(X))] + \mathbb{E}[(\mathbb{E}[Y|X]-g(X))^2] \end{aligned}

根据全期望公式(平滑定理),交叉项恒为 0:

E[E[(YE[YX])(E[YX]g(X))X]]=E[(E[YX]g(X))E[YE[YX]X]=0]=0\mathbb{E}\left[ \mathbb{E}[(Y-\mathbb{E}[Y|X])(\mathbb{E}[Y|X]-g(X)) \mid X] \right] = \mathbb{E}\left[ (\mathbb{E}[Y|X]-g(X)) \underbrace{\mathbb{E}[Y-\mathbb{E}[Y|X]\mid X]}_{=0} \right] = 0

极值问题化简为:

E[(Yg(X))2]=E[(YE[YX])2]+E[(E[YX]g(X))2]\mathbb{E}[(Y-g(X))^2] = \mathbb{E}[(Y-\mathbb{E}[Y|X])^2] + \mathbb{E}[(\mathbb{E}[Y|X]-g(X))^2]

要使整体均方误差最小,必须让非负的第二项为 0,即最优预测为 g(X)=E[YX]g^\ast(X)=\mathbb{E}[Y|X] (a.s.)。

视角二:几何投影法(Hilbert 空间)

既然同学们正在学习实分析与线性代数,我们可以将概率论问题转化为泛函分析中的几何问题。 所有满足二阶矩有限的随机变量构成了一个 Hilbert 空间 L2(Ω,F,P)L^2(\Omega, \mathcal{F}, \mathbb{P})。在该空间中,内积定义为 X,Y=E[XY]\langle X, Y \rangle = \mathbb{E}[XY],距离的平方即均方误差 XY2=E[(XY)2]\|X - Y\|^2 = \mathbb{E}[(X - Y)^2]。所有形如 g(X)g(X) 的可测函数构成了一个闭子空间 HX\mathcal{H}_X。求解 g(X)g^\ast(X) 本质上是在 HX\mathcal{H}_X 中寻找距离 YY 最近的点 Y^\hat{Y}

第一步:距离最小等价于正交。
记误差向量为 e=YY^e = Y - \hat{Y}。假设存在某个 VHXV \in \mathcal{H}_X 使得 e,V0\langle e, V \rangle \neq 0。我们构造受微扰的预测 Y^+tVHX\hat{Y} + tV \in \mathcal{H}_X,其距离平方为:

f(t)=Y(Y^+tV)2=etV2=e22te,V+t2V2f(t) = \|Y - (\hat{Y} + tV)\|^2 = \|e - tV\|^2 = \|e\|^2 - 2t\langle e, V \rangle + t^2\|V\|^2

这是一个关于 tt 的二次函数,在 t=0t=0 处的导数为 f(0)=2e,V0f'(0) = -2\langle e, V \rangle \neq 0。这意味着我们总能沿着梯度的反方向稍微移动一点(取充分小的 tt),使得 f(t)<e2f(t) < \|e\|^2,但这与 Y^\hat{Y} 是最近点相矛盾!因此,误差向量必须与子空间正交:YY^,V=0\langle Y-\hat{Y}, V \rangle = 0

第二步:条件期望即为正交投影。
Y^=E[YX]\hat{Y} = \mathbb{E}[Y|X],我们验证其误差是否与任意 V=g(X)V=g(X) 正交。同样利用平滑定理:

YE[YX],g(X)=E[(YE[YX])g(X)]=E[g(X)(E[YX]E[YX])]=0\langle Y-\mathbb{E}[Y|X], g(X) \rangle = \mathbb{E}[(Y-\mathbb{E}[Y|X])g(X)] = \mathbb{E}\left[g(X)(\mathbb{E}[Y|X]-\mathbb{E}[Y|X])\right] = 0

这从几何上严格证明了:条件期望 E[YX]\mathbb{E}[Y|X] 就是 YY 在由 XX 生成的信息空间上的正交投影。

3. 从概率到统计:现实世界中的预测

概率论与统计学的核心分界

在前文的推导中,我们得到了理论上的最优预测函数 g(x)=E[YX=x]g^\ast(x) = \mathbb{E}[Y \mid X=x]。请注意,计算条件期望需要完全知晓 XXYY 的联合概率分布。这正是概率论的典型范式(正向演绎):假设数据生成的底层物理法则(分布与参数)已知,去研究随机变量的性质和最优解。

然而,在统计学与机器学习面临的现实问题中(逆向),真实的联合分布永远是个黑盒。我们拥有的仅仅是从该分布中独立同分布(i.i.d.)采样得到的一组有限数据 D={(x1,y1),(x2,y2),,(xn,yn)}\mathcal{D} = \{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}。我们只能利用这组样本训练出一个估计模型 f^D(x)\hat{f}_{\mathcal{D}}(x),去逼近那个未知的、完美的条件期望 f(x)=E[YX=x]f(x) = \mathbb{E}[Y \mid X=x]

既然训练集 D\mathcal{D} 是随机采样的,那么我们训练出来的模型 f^D(x)\hat{f}_{\mathcal{D}}(x) 本质上也是一个随机变量。评估一个机器学习模型的好坏,不仅要看它在某一个特定数据集上的表现,更要看它在所有可能抽取的数据集上的"期望表现"。

4. Bias-Variance Decomposition

假设真实的客观规律为 Y=f(x)+ϵY = f(x) + \epsilon,其中 f(x)=E[YX=x]f(x) = \mathbb{E}[Y \mid X=x] 是真实的最佳预测,ϵ\epsilon 是不可预测的客观随机噪声,满足 E[ϵ]=0\mathbb{E}[\epsilon] = 0Var(ϵ)=σ2\text{Var}(\epsilon) = \sigma^2

对于给定的测试点 xx,我们用基于随机数据集 D\mathcal{D} 训练出的模型 f^(x)\hat{f}(x) 去预测全新的观测值 YY。我们来考察这个预测过程的期望泛化误差(对所有可能的数据集 D\mathcal{D} 和噪声 ϵ\epsilon 求期望):

Err(x)=ED,ϵ[(Yf^(x))2]\text{Err}(x) = \mathbb{E}_{\mathcal{D}, \epsilon}\left[ (Y - \hat{f}(x))^2 \right]

为了看清误差的来源,我们使用数学中经典的"加一项减一项"配方技巧。在括号内同时加上并减去模型预测的期望值 ED[f^(x)]\mathbb{E}_{\mathcal{D}}[\hat{f}(x)] 以及真实函数 f(x)f(x)

Err(x)=E[(f(x)+ϵf^(x))2]=E[((f(x)E[f^(x)])+(E[f^(x)]f^(x))+ϵ)2]\begin{aligned} \text{Err}(x) &= \mathbb{E}\left[ (f(x) + \epsilon - \hat{f}(x))^2 \right] \\ &= \mathbb{E}\left[ \Big( (f(x) - \mathbb{E}[\hat{f}(x)]) + (\mathbb{E}[\hat{f}(x)] - \hat{f}(x)) + \epsilon \Big)^2 \right] \end{aligned}

将其展开为三项平方和与三个交叉项。由于噪声 ϵ\epsilon 独立于模型 f^\hat{f},且 E[ϵ]=0\mathbb{E}[\epsilon]=0;同时 E[E[f^(x)]f^(x)]=0\mathbb{E}[\mathbb{E}[\hat{f}(x)] - \hat{f}(x)] = 0,所有的交叉乘积项在取期望后全部消掉(同学们可作为课后练习自行验证正交性)。最终,误差被极其优美地分解为三个纯粹的部分:

Err(x)=(f(x)E[f^(x)])2偏差的平方 (Bias2)+E[(f^(x)E[f^(x)])2]方差 (Variance)+σ2不可约误差 (Irreducible Error)\text{Err}(x) = \underbrace{(f(x) - \mathbb{E}[\hat{f}(x)])^2}_{\text{偏差的平方 (Bias}^2)} + \underbrace{\mathbb{E}\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{方差 (Variance)}} + \underbrace{\sigma^2}_{\text{不可约误差 (Irreducible Error)}}

数学与物理直觉解读:

  • 偏差 (Bias)E[f^(x)]f(x)\mathbb{E}[\hat{f}(x)] - f(x)。衡量了我们模型的"平均预测"与"真实客观规律"之间的距离。偏差大,说明模型本身表达能力不足(例如用线性方程去拟合非线性曲线),这在机器学习中被称为欠拟合 (Underfitting)

  • 方差 (Variance)Var(f^(x))\text{Var}(\hat{f}(x))。衡量了模型在不同训练集 D\mathcal{D} 之间跳跃的剧烈程度。方差大,说明模型过于敏感,把某次采样中的偶然噪声也当成了规律学了进去,这被称为过拟合 (Overfitting)

  • 不可约误差 (σ2\sigma^2):这是客观世界固有的随机性(例如测量仪器的物理精度极限)。无论你设计多么精妙的算法,均方误差都不可能低于这个下界 σ2\sigma^2

在机器学习中,如果我们把模型变复杂,偏差会减小,但方差会急剧增大;反之亦然。寻找最优模型的本质,就是在无穷维的函数空间中,寻找使得 Bias2+Variance\text{Bias}^2 + \text{Variance} 达到极小的平衡点。

章末回看
  • 本章原始题目和解答正文来自对应 TeX 分文件。
  • 可先只看题目框,写出关键等式后再展开证明或解答。
  • 若结论用到独立性、可列可加性、换元公式或矩条件,最好顺手标明。