第二次习题课

刘景寒

阅读地图

本章从连续型分布、联合分布与边缘分布过渡到机器学习中的最小二乘直觉。
读密度函数时要先问两个问题：归一化常数是否存在，支撑集是什么。
补充内容可视为条件期望和投影思想的预演。

提示每次换元前，先确认变换是否一一、Jacobian 是否取绝对值，以及积分区域如何移动。

习题1.5

旁注

连续型分布先看支撑集，再看归一化常数。密度含参数时，先判断积分是否有限。

题目

哪些函数是密度函数? 若是, 求 $C$ 及分布函数 $F(x)$ . (1) $f(x) = \begin{cases} Cx^{-d}, & x > 1 \\ 0, & x < 1 \end{cases}$ .
(2) $f(x) = C e^{-x-e^{-x}}, -\infty < x < \infty$ 。

解答

$1$ 要使 $f(x)$ 成为密度函数，必须满足规范性 $\int_{-\infty}^{\infty} f(x)\mathrm{d}x = 1$ 。

\int_1^{\infty} C x^{-d} \mathrm{d}x = \lim_{t \to \infty} \left[ \frac{C}{1-d} x^{1-d} \right]_1^t

为了使广义积分收敛，必须要求 $1-d < 0$ ，即 $d > 1$ 。此时积分值为 $\frac{C}{d-1}$ 。令 $\frac{C}{d-1} = 1$ ，得到 $C = d - 1$ 。此时，分布函数 $F(x)$ 为：当 $x \le 1$ 时， $F(x) = 0$ 。当 $x > 1$ 时， $F(x) = \int_1^x (d-1)t^{-d} \mathrm{d}t = 1 - x^{-(d-1)}$ 。

$2$ 验证规范性：

\int_{-\infty}^{\infty} C e^{-x-e^{-x}} \mathrm{d}x

令 $u = e^{-x}$ ，则 $\mathrm{d}u = -e^{-x}\mathrm{d}x$ 。当 $x \to -\infty$ 时 $u \to \infty$ ； $x \to \infty$ 时 $u \to 0$ 。

\int_{\infty}^{0} C e^{-u} (-\mathrm{d}u) = C \int_0^{\infty} e^{-u} \mathrm{d}u = C

要成为密度函数，必有 $C = 1$ 。其分布函数为：

F(x) = \int_{-\infty}^x e^{-t-e^{-t}} \mathrm{d}t = \int_{e^{-x}}^{\infty} e^{-u} \mathrm{d}u = e^{-e^{-x}}, \quad -\infty < x < \infty

题目

设 $U$ 为 $(0,1)$ 上某概率空间上均匀分布, $F$ 为严格单调递增的分布函数, 定义新随机变量 $Y = F^{-1}(U)$ , $Y(\omega) := F^{-1}(U(\omega))$ , 证明 $Y$ 的分布函数为 $F$ 。

证明

已知 $U \sim U(0,1)$ ，且 $F$ 为严格单调递增的分布函数，因此其反函数 $F^{-1}$ 存在且也是严格单调递增的。求 $Y = F^{-1}(U)$ 的分布函数 $F_Y(y)$ ：

F_Y(y) = \mathbb{P}(Y \le y) = \mathbb{P}(F^{-1}(U) \le y)

因为 $F$ 严格单调递增，对不等式两边同时作用 $F$ 函数不改变不等号方向：

\mathbb{P}(F^{-1}(U) \le y) = \mathbb{P}(U \le F(y))

由于 $U$ 在 $(0,1)$ 上均匀分布，且对于任意实数 $y$ ，都有 $0 \le F(y) \le 1$ 。根据均匀分布的性质：

\mathbb{P}(U \le F(y)) = F(y)

即 $F_Y(y) = F(y)$ ，得证。

题目

设 $(X, Y)$ 是取值整数值的随机向量, 它们的联合分布列为 $f(x, y)$ . 证明对 $x, y \in \mathbb{Z}$ , 有

\begin{aligned} f(x, y) &= \mathbb{P}(X \ge x, Y \le y) - \mathbb{P}(X \ge x+1, Y \le y) \\ &\quad - \mathbb{P}(X \ge x, Y \le y-1) + \mathbb{P}(X \ge x+1, Y \le y-1). \end{aligned}

并求掷 $r$ 次均匀骰子中最小值 $X_{\min}$ 和最大值 $X_{\max}$ 的联合分布列。

解答

第一部分： 令事件 $A = \{X \ge x, Y \le y\}$ 。该事件可以分解为：

\{X \ge x, Y \le y\} = \{X = x, Y \le y\} \cup \{X \ge x+1, Y \le y\}

这是两个互斥事件，因此：

\mathbb{P}(X \ge x, Y \le y) = \mathbb{P}(X = x, Y \le y) + \mathbb{P}(X \ge x+1, Y \le y)

整理得： $\mathbb{P}(X = x, Y \le y) = \mathbb{P}(X \ge x, Y \le y) - \mathbb{P}(X \ge x+1, Y \le y)$ 同理，对于 $y-1$ ，有：

\mathbb{P}(X = x, Y \le y-1) = \mathbb{P}(X \ge x, Y \le y-1) - \mathbb{P}(X \ge x+1, Y \le y-1)

又因为：

\{X = x, Y \le y\} = \{X = x, Y = y\} \cup \{X = x, Y \le y-1\}

所以：

f(x,y) = \mathbb{P}(X = x, Y = y) = \mathbb{P}(X = x, Y \le y) - \mathbb{P}(X = x, Y \le y-1)

将前面推导的两式代入上式，即得证所需等式。

第二部分： 对于掷 $r$ 次骰子， $X_{\min} \ge i$ 且 $X_{\max} \le j$ 意味着 $r$ 次掷出的点数全部落在区间 $[i, j]$ 内。当 $1 \le i \le j \le 6$ 时，该区间共有 $j-i+1$ 个可能的结果。

\mathbb{P}(X_{\min} \ge i, X_{\max} \le j) = \left( \frac{j-i+1}{6} \right)^r

利用刚才证明的公式，求 $f(i, j) = \mathbb{P}(X_{\min} = i, X_{\max} = j)$ ：当 $1 \le i < j \le 6$ 时：

f(i,j) = \frac{(j-i+1)^r - 2(j-i)^r + (j-i-1)^r}{6^r}

当 $1 \le i = j \le 6$ 时，由于必须每次都掷出 $i$ ：

f(i,i) = \frac{1}{6^r}

其余情况 $f(i,j) = 0$ 。

题目

二元函数

F(x, y) = \begin{cases} 1 - e^{-x-y}, & x, y \ge 0 \\ 0, & \text{否则} \end{cases}

是否为某随机向量 $(X, Y)$ 的联合分布函数? 若是, 求出 $X$ 和 $Y$ 的分布函数, 若不是请说明理由。

解答

不是。我们可以通过验证联合分布函数的"矩形不等式"性质（即分配给任意矩形区域的概率必须非负）来证明。对于任意 $x_1 < x_2, y_1 < y_2$ ，必须满足：

\mathbb{P}(x_1 < X \le x_2, y_1 < Y \le y_2) = F(x_2, y_2) - F(x_1, y_2) - F(x_2, y_1) + F(x_1, y_1) \ge 0

取 $x_1 = 0, x_2 = 1, y_1 = 0, y_2 = 1$ ，代入给定的函数：

\begin{aligned} & F(1,1) - F(0,1) - F(1,0) + F(0,0) \\ &= (1 - e^{-2}) - (1 - e^{-1}) - (1 - e^{-1}) + (1 - e^0) \\ &= 1 - e^{-2} - 1 + e^{-1} - 1 + e^{-1} + 0 \\ &= -1 + 2e^{-1} - e^{-2} = -(1 - e^{-1})^2 \end{aligned}

因为 $1 - e^{-1} \neq 0$ ，所以 $-(1 - e^{-1})^2 < 0$ 。由于该区域的概率算出来为负数，违背了概率非负性公理，因此它不是任何随机向量的联合分布函数。

题目

$X_1$ 和 $X_2$ 是两个独立的随机变量且有相同的分布函数 $F(x)$ . 记

U = \max\{X_1, X_2\}, \quad V = \min\{X_1, X_2\},

(1) 求 $U$ 和 $V$ 的分布函数。(2) 求 $(U, V)$ 的联合分布函数。

解答

$1$ 求 $U$ 和 $V$ 的分布函数：对于 $U = \max\{X_1, X_2\}$ ：

F_U(u) = \mathbb{P}(U \le u) = \mathbb{P}(X_1 \le u, X_2 \le u)

由独立性得：

F_U(u) = \mathbb{P}(X_1 \le u)\mathbb{P}(X_2 \le u) = F(u)^2

对于 $V = \min\{X_1, X_2\}$ ：

F_V(v) = \mathbb{P}(V \le v) = 1 - \mathbb{P}(V > v) = 1 - \mathbb{P}(X_1 > v, X_2 > v)

由独立性得：

F_V(v) = 1 - \mathbb{P}(X_1 > v)\mathbb{P}(X_2 > v) = 1 - (1 - F(v))^2 = 2F(v)-{F(v)}^2

$2$ 求 $(U, V)$ 的联合分布函数： $F_{U,V}(u,v) = \mathbb{P}(U \le u, V \le v)$ 。由于 $V \le U$ 是必然事件： 情形一：当 $u \le v$ 时，若 $U \le u$ ，则必有 $V \le u \le v$ 成立。

F_{U,V}(u,v) = \mathbb{P}(U \le u) = F(u)^2

情形二：当 $u > v$ 时，使用事件的差集：

\mathbb{P}(U \le u, V \le v) = \mathbb{P}(U \le u) - \mathbb{P}(U \le u, V > v)

其中，事件 $\{U \le u, V > v\}$ 等价于 $\{v < X_1 \le u, v < X_2 \le u\}$ 。由独立性：

\mathbb{P}(v < X_1 \le u, v < X_2 \le u) = [F(u) - F(v)]^2

因此：

F_{U,V}(u,v) = F(u)^2 - (F(u) - F(v))^2 = 2F(u)F(v) - F(v)^2

综上所述， $(U, V)$ 的联合分布函数为：

F_{U,V}(u,v) = \begin{cases} F(u)^2, & u \le v \\ 2F(u)F(v) - F(v)^2, & u > v \end{cases}

习题1.6

旁注

联合分布题最好先画区域。许多错误不是积分本身，而是上下限没有随区域变化。

题目

对 (Borel 可测) 函数 $g, h: \mathbb{R} \to \mathbb{R}$ , 若离散型随机变量 $X, Y$ 独立, 不利用定理 1.6.4 而直接证明 $g(X), h(Y)$ 亦独立。

证明

令 $U = g(X), V = h(Y)$ 。因为 $X, Y$ 是离散型随机变量，所以 $U, V$ 也是离散型随机变量。对于 $U$ 和 $V$ 能取到的任意一对值 $u$ 和 $v$ ，根据定义有：

\mathbb{P}(U = u, V = v) = \mathbb{P}(g(X) = u, h(Y) = v) = \mathbb{P}(X \in g^{-1}(u), Y \in h^{-1}(v))

其中 $g^{-1}(u) = \{x \mid g(x) = u\}$ ， $h^{-1}(v) = \{y \mid h(y) = v\}$ 。由于 $X, Y$ 相互独立，其联合概率满足边缘概率的乘积：

\begin{aligned} \mathbb{P}(X \in g^{-1}(u), Y \in h^{-1}(v)) &= \sum_{x \in g^{-1}(u)} \sum_{y \in h^{-1}(v)} \mathbb{P}(X = x, Y = y) \\ &= \sum_{x \in g^{-1}(u)} \sum_{y \in h^{-1}(v)} \mathbb{P}(X = x)\mathbb{P}(Y = y) \\ &= \left( \sum_{x \in g^{-1}(u)} \mathbb{P}(X = x) \right) \left( \sum_{y \in h^{-1}(v)} \mathbb{P}(Y = y) \right) \\ &= \mathbb{P}(X \in g^{-1}(u)) \mathbb{P}(Y \in h^{-1}(v)) \\ &= \mathbb{P}(g(X) = u) \mathbb{P}(h(Y) = v) \\ &= \mathbb{P}(U = u) \mathbb{P}(V = v) \end{aligned}

因此， $g(X)$ 与 $h(Y)$ 相互独立。

题目

设取值为正整数随机变量 $X_1, X_2, X_3$ 相互独立, 它们的分布列为

\mathbb{P}(X_i = x) = (1 - p_i)p_i^{x-1}, i = 1, 2, 3.

(1) 证明

\mathbb{P}(X_1 < X_2 < X_3) = \frac{(1 - p_1)(1 - p_2)p_2p_3^2}{(1 - p_2p_3)(1 - p_1p_2p_3)}.

(2) 求 $\mathbb{P}(X_1 \le X_2 \le X_3)$ 。

解答

$1$ 证明：由于 $X_1, X_2, X_3$ 相互独立，有：

\mathbb{P}(X_1 < X_2 < X_3) = \sum_{x_1=1}^{\infty} \sum_{x_2=x_1+1}^{\infty} \sum_{x_3=x_2+1}^{\infty} \mathbb{P}(X_1=x_1)\mathbb{P}(X_2=x_2)\mathbb{P}(X_3=x_3)

先计算最内层的求和：

\sum_{x_3=x_2+1}^{\infty} (1-p_3)p_3^{x_3-1} = p_3^{x_2}

代入第二层求和：

\sum_{x_2=x_1+1}^{\infty} (1-p_2)p_2^{x_2-1} p_3^{x_2} = (1-p_2)p_3 \sum_{x_2=x_1+1}^{\infty} (p_2p_3)^{x_2-1} = (1-p_2)p_3 \frac{(p_2p_3)^{x_1}}{1-p_2p_3}

代入最外层求和：

\begin{aligned} \mathbb{P}(X_1 < X_2 < X_3) &= \sum_{x_1=1}^{\infty} (1-p_1)p_1^{x_1-1} \frac{(1-p_2)p_3 (p_2p_3)^{x_1}}{1-p_2p_3} \\ &= \frac{(1-p_1)(1-p_2)p_2p_3^2}{1-p_2p_3} \sum_{x_1=1}^{\infty} (p_1p_2p_3)^{x_1-1} \\ &= \frac{(1-p_1)(1-p_2)p_2p_3^2}{(1-p_2p_3)(1-p_1p_2p_3)} \end{aligned}

得证。

$2$ 求 $\mathbb{P}(X_1 \le X_2 \le X_3)$ ：同理，改变求和的下界：

\mathbb{P}(X_1 \le X_2 \le X_3) = \sum_{x_1=1}^{\infty} \sum_{x_2=x_1}^{\infty} \sum_{x_3=x_2}^{\infty} \mathbb{P}(X_1=x_1)\mathbb{P}(X_2=x_2)\mathbb{P}(X_3=x_3)

最内层求和：

\sum_{x_3=x_2}^{\infty} (1-p_3)p_3^{x_3-1} = p_3^{x_2-1}

第二层求和：

\sum_{x_2=x_1}^{\infty} (1-p_2)p_2^{x_2-1} p_3^{x_2-1} = (1-p_2) \frac{(p_2p_3)^{x_1-1}}{1-p_2p_3}

最外层求和：

\begin{aligned} \mathbb{P}(X_1 \le X_2 \le X_3) &= \sum_{x_1=1}^{\infty} (1-p_1)p_1^{x_1-1} \frac{(1-p_2)(p_2p_3)^{x_1-1}}{1-p_2p_3} \\ &= \frac{(1-p_1)(1-p_2)}{1-p_2p_3} \sum_{x_1=1}^{\infty} (p_1p_2p_3)^{x_1-1} \\ &= \frac{(1-p_1)(1-p_2)}{(1-p_2p_3)(1-p_1p_2p_3)} \end{aligned}

题目

设连续型随机变量 $X_1, X_2, X_3, X_4, X_5$ 相互独立且有相同的分布函数 $F$ , 令

I = \mathbb{P}(X_1 < X_2 < X_3 < X_4 < X_5).

证明 $I$ 与 $F$ 无关, 并求 $I$ 的值。

证明

由于 $X_1, X_2, X_3, X_4, X_5$ 是相互独立且同分布的连续型随机变量，它们取值相等的概率为 $0$ 。这 $5$ 个随机变量的大小排列共有 $5! = 120$ 种可能，且由对称性可知，每种排列出现的概率是相等的。 $X_1 < X_2 < X_3 < X_4 < X_5$ 只是这 $120$ 种排列中的特定一种。因此：

I = \mathbb{P}(X_1 < X_2 < X_3 < X_4 < X_5) = \frac{1}{5!} = \frac{1}{120}

显然，该结果是一个常数，与具体的分布函数 $F$ 无关。

题目

在线段 $[0, 1]$ 上任意投掷 3 个点, 各个点独立且均服从均匀分布, 求: (1) 中间点的分布函数。(2) 最左边点和最右边点的联合密度。

解答

设这三个点的位置分别为 $X_1, X_2, X_3 \sim U(0,1)$ ，且相互独立。将其排序得到次序统计量 $X_{(1)} \le X_{(2)} \le X_{(3)}$ 。

$1$ 中间点 $X_{(2)}$ 的分布函数：对于 $x \in [0, 1]$ ，中间点小于等于 $x$ 等价于这三个点中至少有 $2$ 个点小于等于 $x$ 。这等价于进行 $3$ 次独立的伯努利试验，每次成功的概率为 $x$ 。

F_{(2)}(x) = \mathbb{P}(X_{(2)} \le x) = \binom{3}{2} x^2 (1-x) + \binom{3}{3} x^3 = 3x^2 - 2x^3

(当 $x < 0$ 时 $F=0$ ；当 $x > 1$ 时 $F=1$ )

$2$ 最左边点与最右边点的联合密度：令 $U = X_{(1)}$ , $V = X_{(3)}$ 。对于 $0 \le u \le v \le 1$ ：

\mathbb{P}(U > u, V \le v) = \mathbb{P}(\text{三个点均落在 } (u, v] \text{ 内}) = (v-u)^3

另一方面，利用联合分布函数：

\mathbb{P}(U > u, V \le v) = \mathbb{P}(V \le v) - \mathbb{P}(U \le u, V \le v) = F_V(v) - F_{U,V}(u,v)

因此联合分布函数为 $F_{U,V}(u,v) = F_V(v) - (v-u)^3$ 。对其求混合偏导数得到联合密度函数：

f_{U,V}(u,v) = \frac{\partial^2 F_{U,V}(u,v)}{\partial u \partial v} = \frac{\partial^2}{\partial u \partial v} [-(v-u)^3] = \frac{\partial}{\partial u} [-3(v-u)^2] = 6(v-u)

所以，当 $0 \le u \le v \le 1$ 时，联合密度为 $f(u,v) = 6(v-u)$ ；其余区域为 $0$ 。

补充内容：机器学习基础

旁注

最小二乘既可作代数计算，也可看作 Hilbert 空间投影；这也是条件期望与预测问题的自然接口。

1. 问题与动机

在机器学习的回归任务中，我们将特征（Feature）和标签（Label）分别抽象为同一概率空间上的随机变量 $X$ 和 $Y$ 。核心目标是寻找一个最优的预测函数 $g(\cdot)$ ，使得预测值 $g(X)$ 与真实值 $Y$ 之间的差异最小。

数学上，我们通常采用均方误差（Mean Squared Error, MSE）作为风险函数。为保证几何结构良好，假设 $Y$ 具有二阶矩（即 $Y \in L^2$ ），且预测函数 $g$ 满足 $\mathbb{E}[g(X)^2] < \infty$ 。寻找最优预测模型即求解以下极值问题：

g^\ast = \mathop{\arg\min}_{g} \mathbb{E}[(Y - g(X))^2]

2. 最优预测的求解

我们将通过代数与几何两种视角证明：在均方误差准则下，最优预测函数正是条件期望，即 $g^\ast(X) = \mathbb{E}[Y|X]$ 。

视角一：代数配方法

利用期望的线性性质，我们在均方误差中"加上并减去"条件期望 $\mathbb{E}[Y|X]$ ，进行配方展开：

\begin{aligned} \mathbb{E}[(Y-g(X))^2] &= \mathbb{E}\left[\left((Y-\mathbb{E}[Y|X])+(\mathbb{E}[Y|X]-g(X))\right)^2\right] \\ &= \mathbb{E}[(Y-\mathbb{E}[Y|X])^2] + 2\mathbb{E}[(Y-\mathbb{E}[Y|X])(\mathbb{E}[Y|X]-g(X))] + \mathbb{E}[(\mathbb{E}[Y|X]-g(X))^2] \end{aligned}

根据全期望公式（平滑定理），交叉项恒为 0：

\mathbb{E}\left[ \mathbb{E}[(Y-\mathbb{E}[Y|X])(\mathbb{E}[Y|X]-g(X)) \mid X] \right] = \mathbb{E}\left[ (\mathbb{E}[Y|X]-g(X)) \underbrace{\mathbb{E}[Y-\mathbb{E}[Y|X]\mid X]}_{=0} \right] = 0

极值问题化简为：

\mathbb{E}[(Y-g(X))^2] = \mathbb{E}[(Y-\mathbb{E}[Y|X])^2] + \mathbb{E}[(\mathbb{E}[Y|X]-g(X))^2]

要使整体均方误差最小，必须让非负的第二项为 0，即最优预测为 $g^\ast(X)=\mathbb{E}[Y|X]$ (a.s.)。

视角二：几何投影法（Hilbert 空间）

既然同学们正在学习实分析与线性代数，我们可以将概率论问题转化为泛函分析中的几何问题。所有满足二阶矩有限的随机变量构成了一个 Hilbert 空间 $L^2(\Omega, \mathcal{F}, \mathbb{P})$ 。在该空间中，内积定义为 $\langle X, Y \rangle = \mathbb{E}[XY]$ ，距离的平方即均方误差 $\|X - Y\|^2 = \mathbb{E}[(X - Y)^2]$ 。所有形如 $g(X)$ 的可测函数构成了一个闭子空间 $\mathcal{H}_X$ 。求解 $g^\ast(X)$ 本质上是在 $\mathcal{H}_X$ 中寻找距离 $Y$ 最近的点 $\hat{Y}$ 。

第一步：距离最小等价于正交。
记误差向量为 $e = Y - \hat{Y}$ 。假设存在某个 $V \in \mathcal{H}_X$ 使得 $\langle e, V \rangle \neq 0$ 。我们构造受微扰的预测 $\hat{Y} + tV \in \mathcal{H}_X$ ，其距离平方为：

f(t) = \|Y - (\hat{Y} + tV)\|^2 = \|e - tV\|^2 = \|e\|^2 - 2t\langle e, V \rangle + t^2\|V\|^2

这是一个关于 $t$ 的二次函数，在 $t=0$ 处的导数为 $f'(0) = -2\langle e, V \rangle \neq 0$ 。这意味着我们总能沿着梯度的反方向稍微移动一点（取充分小的 $t$ ），使得 $f(t) < \|e\|^2$ ，但这与 $\hat{Y}$ 是最近点相矛盾！因此，误差向量必须与子空间正交： $\langle Y-\hat{Y}, V \rangle = 0$ 。

第二步：条件期望即为正交投影。
令 $\hat{Y} = \mathbb{E}[Y|X]$ ，我们验证其误差是否与任意 $V=g(X)$ 正交。同样利用平滑定理：

\langle Y-\mathbb{E}[Y|X], g(X) \rangle = \mathbb{E}[(Y-\mathbb{E}[Y|X])g(X)] = \mathbb{E}\left[g(X)(\mathbb{E}[Y|X]-\mathbb{E}[Y|X])\right] = 0

这从几何上严格证明了：条件期望 $\mathbb{E}[Y|X]$ 就是 $Y$ 在由 $X$ 生成的信息空间上的正交投影。

3. 从概率到统计：现实世界中的预测

概率论与统计学的核心分界

在前文的推导中，我们得到了理论上的最优预测函数 $g^\ast(x) = \mathbb{E}[Y \mid X=x]$ 。请注意，计算条件期望需要完全知晓 $X$ 和 $Y$ 的联合概率分布。这正是概率论的典型范式（正向演绎）：假设数据生成的底层物理法则（分布与参数）已知，去研究随机变量的性质和最优解。

然而，在统计学与机器学习面临的现实问题中（逆向），真实的联合分布永远是个黑盒。我们拥有的仅仅是从该分布中独立同分布（i.i.d.）采样得到的一组有限数据 $\mathcal{D} = \{(x_1, y_1), (x_2, y_2), \dots, (x_n, y_n)\}$ 。我们只能利用这组样本训练出一个估计模型 $\hat{f}_{\mathcal{D}}(x)$ ，去逼近那个未知的、完美的条件期望 $f(x) = \mathbb{E}[Y \mid X=x]$ 。

既然训练集 $\mathcal{D}$ 是随机采样的，那么我们训练出来的模型 $\hat{f}_{\mathcal{D}}(x)$ 本质上也是一个随机变量。评估一个机器学习模型的好坏，不仅要看它在某一个特定数据集上的表现，更要看它在所有可能抽取的数据集上的"期望表现"。

4. Bias-Variance Decomposition

假设真实的客观规律为 $Y = f(x) + \epsilon$ ，其中 $f(x) = \mathbb{E}[Y \mid X=x]$ 是真实的最佳预测， $\epsilon$ 是不可预测的客观随机噪声，满足 $\mathbb{E}[\epsilon] = 0$ 且 $\text{Var}(\epsilon) = \sigma^2$ 。

对于给定的测试点 $x$ ，我们用基于随机数据集 $\mathcal{D}$ 训练出的模型 $\hat{f}(x)$ 去预测全新的观测值 $Y$ 。我们来考察这个预测过程的期望泛化误差（对所有可能的数据集 $\mathcal{D}$ 和噪声 $\epsilon$ 求期望）：

\text{Err}(x) = \mathbb{E}_{\mathcal{D}, \epsilon}\left[ (Y - \hat{f}(x))^2 \right]

为了看清误差的来源，我们使用数学中经典的"加一项减一项"配方技巧。在括号内同时加上并减去模型预测的期望值 $\mathbb{E}_{\mathcal{D}}[\hat{f}(x)]$ 以及真实函数 $f(x)$ ：

\begin{aligned} \text{Err}(x) &= \mathbb{E}\left[ (f(x) + \epsilon - \hat{f}(x))^2 \right] \\ &= \mathbb{E}\left[ \Big( (f(x) - \mathbb{E}[\hat{f}(x)]) + (\mathbb{E}[\hat{f}(x)] - \hat{f}(x)) + \epsilon \Big)^2 \right] \end{aligned}

将其展开为三项平方和与三个交叉项。由于噪声 $\epsilon$ 独立于模型 $\hat{f}$ ，且 $\mathbb{E}[\epsilon]=0$ ；同时 $\mathbb{E}[\mathbb{E}[\hat{f}(x)] - \hat{f}(x)] = 0$ ，所有的交叉乘积项在取期望后全部消掉（同学们可作为课后练习自行验证正交性）。最终，误差被极其优美地分解为三个纯粹的部分：

\text{Err}(x) = \underbrace{(f(x) - \mathbb{E}[\hat{f}(x)])^2}_{\text{偏差的平方 (Bias}^2)} + \underbrace{\mathbb{E}\left[(\hat{f}(x) - \mathbb{E}[\hat{f}(x)])^2\right]}_{\text{方差 (Variance)}} + \underbrace{\sigma^2}_{\text{不可约误差 (Irreducible Error)}}

数学与物理直觉解读：

偏差 (Bias)： $\mathbb{E}[\hat{f}(x)] - f(x)$ 。衡量了我们模型的"平均预测"与"真实客观规律"之间的距离。偏差大，说明模型本身表达能力不足（例如用线性方程去拟合非线性曲线），这在机器学习中被称为欠拟合 (Underfitting)。
方差 (Variance)： $\text{Var}(\hat{f}(x))$ 。衡量了模型在不同训练集 $\mathcal{D}$ 之间跳跃的剧烈程度。方差大，说明模型过于敏感，把某次采样中的偶然噪声也当成了规律学了进去，这被称为过拟合 (Overfitting)。
不可约误差 ( $\sigma^2$ )：这是客观世界固有的随机性（例如测量仪器的物理精度极限）。无论你设计多么精妙的算法，均方误差都不可能低于这个下界 $\sigma^2$ 。

在机器学习中，如果我们把模型变复杂，偏差会减小，但方差会急剧增大；反之亦然。寻找最优模型的本质，就是在无穷维的函数空间中，寻找使得 $\text{Bias}^2 + \text{Variance}$ 达到极小的平衡点。

章末回看

本章原始题目和解答正文来自对应 TeX 分文件。
可先只看题目框，写出关键等式后再展开证明或解答。
若结论用到独立性、可列可加性、换元公式或矩条件，最好顺手标明。