第三次习题课

胡洁洋

目录
阅读地图
  • 本章围绕离散随机变量、期望、条件期望、概率方法和期中复习展开。
  • 线性性、示性函数分解和条件分布是反复出现的三种工具。
  • 随机游走、Catalan 数与分布函数刻画部分适合放慢速度读。

提示 遇到复杂随机量,先尝试写成示性函数之和,再决定是否需要独立性。

习题2.1

旁注

本节主要是分布列、混合分布和对称性。先条件化再求和;独立性常用来把边缘对称传到和上。

题目:2.1.1

先掷一个均匀骰子,记下点数后再掷同样个数的均匀硬币,令 XX 表示正面朝上的硬币个数,求 XX 的分布列。

证明

设掷骰子得到点数NN,则X,NX,N独立。 XX的所有可能取值为0,1,,60,1,\cdots,6,且

P(X=x)=n=x6P(X=xN=n)P(N=n)=16n=x6(nx)2n\begin{aligned} \mathbb{P} (X=x)&=\sum_{n=x}^6 \mathbb{P} (X=x \mid N=n) \mathbb{P} (N=n)\\ &=\frac{1}{6}\sum_{n=x}^6 \binom{n}{x}2^{-n} \end{aligned}
题目:2.1.2

微信朋友圈单位时间分享的讯息条数服从参数为 λ\lambda 的泊松分布,若在相邻时间间隔内新增讯息条数是相互独立的,求在两个单位的间隔时间内发现 kk 条讯息的概率。

证明

记两个单位时间发送条数为XX

P(X=k)=m+n=kλmm!eλλnn!eλ=λke2λk!m=0k(km)=(2λ)ke2λk!\mathbb{P} (X=k)=\sum_{m+n=k}\frac{\lambda^m}{m!}e^{-\lambda } \frac{\lambda^n}{n!}e^{-\lambda }=\frac{\lambda ^k e^{-2\lambda }}{k!}\sum_{m=0}^k \binom{k}{m}=\frac{(2\lambda )^k e^{-2\lambda }}{k!}
题目:2.1.3

设离散型随机变量 X1,,XnX_1, \cdots, X_n 相互独立且关于 00 对称,即 XiX_iXi-X_i 有相同的分布列。证明对任意 xRx \in \mathbb{R}

P(Snx)=P(Snx),\mathbb{P}(S_n \ge x) = \mathbb{P}(S_n \le -x),

其中

Sn=X1++Xn.S_n = X_1 + \cdots + X_n.

若去掉相互独立这一条件,结论还一定成立吗?请说明理由。

证明
P(Snx)=x1++xnxP(X1=x1,,Xn=xn)=x1++xnxP(X1=x1)P(Xn=xn)=x1++xnxP(X1=x1)P(Xn=xn)=x1++xnxP(X1=x1,,Xn=xn)=P(Snx),\begin{aligned} \mathbb{P} (S_n\geq x)&=\sum_{x_{1}+\cdots +x_n\geq x }\mathbb{P} (X_1= x_1,\cdots, X_n=x_n)\\ &= \sum_{x_{1}+\cdots +x_n\geq x }\mathbb{P} (X_1= x_1)\cdots\mathbb{P} ( X_n=x_n)\\ &= \sum_{x_{1}+\cdots +x_n\geq x }\mathbb{P} (X_1= -x_1)\cdots\mathbb{P} ( X_n=-x_n)\\ &=\sum_{x_{1}+\cdots +x_n\leq -x }\mathbb{P} (X_1= x_1,\cdots, X_n=x_n)\\ &=\mathbb{P} (S_n \leq -x), \end{aligned}

但若不独立,令n=2n=2,取以下分布,

P((X1,X2)=(1,0))=P((X1,X2)=(0,1))=P((X1,X2)=(1,1))=13.\mathbb{P}\bigl((X_1,X_2)=(-1,0)\bigr) =\mathbb{P}\bigl((X_1,X_2)=(0,-1)\bigr) =\mathbb{P}\bigl((X_1,X_2)=(1,1)\bigr) =\frac{1}{3}.

X1,X2X_1,X_2 都服从 {1,0,1}\{-1,0,1\} 上的均匀分布,因而都关于 00 对称,但

P(S22)=130=P(S22).\mathbb{P}(S_2\geq 2)=\frac{1}{3}\neq 0=\mathbb{P}(S_2\leq -2).
题目:2.1.4

随机变量 XX 的分布列 P(X=xk)=pk\mathbb{P}(X = x_k) = p_k, k=1,2,,nk = 1, 2, \cdots, n, Shannon 信息熵定义为

H(X)=k=1npklnpk.H(X) = -\sum_{k=1}^n p_k \ln p_k.

给定 nnXX 服从什么样的分布时信息熵 H(X)H(X) 最大?

证明

由Jensen不等式,

H(X)=k=1npklogpklogn,H(X)=-\sum_{k=1}^n p_k \log p_k \leq \log n,

等号成立时,p1=p2==pn=1np_1 =p_2=\cdots =p_n =\frac{1}{n},即为离散型均匀分布。

习题2.2

旁注

期望题常用生成函数、尾和公式和示性函数。高阶矩可以先试着拆成 Bernoulli 指示量。

题目:2.2.1

XB(n,p)X \sim B(n,p),求 E[X3]\mathbb{E}[X^3]

证明

X=k=1nIkX=\sum_{k=1}^n I_k, I1,,InI_1,\cdots, I_n i.i.d.是示性随机变量,且P(Ik=1)=p\mathbb{P} (I_k=1) = p,则

E(X3)=E((k=1nIk)3)=nE(I13)+6(n2)E(I12I2)+6(n3)E(I1I2I3)=n(n1)(n2)p3+3n(n1)p2+np\begin{aligned} \mathbb{E} (X^3)&= \mathbb{E} \left( \left( \sum_{k=1}^n I_k \right)^3 \right) \\&= n\mathbb{E} (I_1^3)+6\binom{n}{2}\mathbb{E} (I_1 ^{2} I_2)+6\binom{n}{3}\mathbb{E} (I_1 I_2 I_3)\\ &=n(n-1)(n-2)p^3 +3n(n-1)p^{2} +np \end{aligned}
题目:2.2.2

离散型随机变量 XX 的分布列

f(x)={1x(x+1),x=1,2,,0,否则.f(x) = \begin{cases} \dfrac{1}{x(x+1)}, & x = 1, 2, \cdots, \\ 0, & \text{否则}. \end{cases}

讨论实数 α\alpha 取何值时 α\alpha 阶矩(当 α\alpha 非整数时称为分数阶矩)E[Xα]<+\mathbb{E}[X^\alpha] < +\infty

证明

α<1\alpha<1时,

E[Xα]=k=11k1α(k+1)k=11k2α<+;\mathbb{E} [X^\alpha ]=\sum_{k=1}^{\infty}\frac{1}{k^{1-\alpha }(k+1)} \leq \sum_{k=1}^{\infty} \frac{1}{k^{2-\alpha } }<+\infty ;

α1\alpha \geq 1时,

E[Xα]k=11k+1=+.\mathbb{E} [X^\alpha ]\geq \sum_{k=1}^{\infty} \frac{1}{k+1}=+\infty .

故取值范围为α<1\alpha <1

题目:2.2.3

无人驾驶网约车是当今社会的科技结晶,设一辆无人驾驶网约车一天内穿过的路口总数为 XX,且

P(X=k)=(1p)k1p,0<p<1,k=1,2,.\mathbb{P}(X = k) = (1-p)^{k-1} p,\quad 0 < p < 1,\quad k = 1, 2, \cdots.

每个路口的红绿灯是独立工作的,该车在每个路口遇到红灯的概率是 pp

11 求此出租车穿过路口总数的期望和方差。

22 求此出租车一天内遇到红灯数的期望。

证明

q=1pq=1-p,则由

k=0qk=11q\sum_{k=0}^\infty q^k=\frac{1}{1-q}

求导得

k=1kqk1=1(1q)2,k=2k(k1)qk2=2(1q)3.\sum_{k=1}^\infty kq^{k-1}=\frac{1}{(1-q)^2},\qquad \sum_{k=2}^\infty k(k-1)q^{k-2}=\frac{2}{(1-q)^3}.

于是

E[X]=k=1kpqk1=p1(1q)2=1p.\mathbb{E}[X]=\sum_{k=1}^\infty kpq^{k-1} =p\cdot \frac{1}{(1-q)^2}=\frac{1}{p}.

E[X(X1)]=k=2k(k1)pqk1=pqk=2k(k1)qk2=2qp2.\mathbb{E}[X(X-1)] =\sum_{k=2}^\infty k(k-1)pq^{k-1} =pq\sum_{k=2}^\infty k(k-1)q^{k-2} =\frac{2q}{p^2}.

E[X2]=E[X(X1)]+E[X]=2qp2+1p=2pp2,\mathbb{E}[X^2]=\mathbb{E}[X(X-1)]+\mathbb{E}[X] =\frac{2q}{p^2}+\frac{1}{p} =\frac{2-p}{p^2},

从而

Var(X)=E[X2]E[X]2=2pp21p2=1pp2.\operatorname{Var}(X)=\mathbb{E}[X^2]-\mathbb{E}[X]^2 =\frac{2-p}{p^2}-\frac{1}{p^2} =\frac{1-p}{p^2}.

设一天内遇到红灯数为 YY,则在 X=nX=n 的条件下,YX=nB(n,p)Y\mid X=n \sim B(n,p),故

E[YX=n]=np.\mathbb{E}[Y\mid X=n]=np.

于是

E[Y]=E(E[YX])=pE[X]=1.\mathbb{E}[Y]=\mathbb{E}\bigl(\mathbb{E}[Y\mid X]\bigr)=p\mathbb{E}[X]=1.

上面的 XX 实际上服从参数为 pp 的几何分布。有结论(可直接引用)

E[X]=1p,Var(X)=1pp2.\mathbb{E}[X]=\frac{1}{p},\qquad \operatorname{Var}(X)=\frac{1-p}{p^2}.
题目:2.2.4

对非负整值随机变量 XX,证明

E[X]=n=0P(X>n).\mathbb{E}[X] = \sum_{n=0}^{\infty} \mathbb{P}(X > n).
证明

X0X\geq 0 且取整数值,

X=n=01{X>n}.X=\sum_{n=0}^{\infty}\mathbf{1}_{\{X>n\}}.

两边取期望,并交换求和与期望,得

E[X]=n=0E[1{X>n}]=n=0P(X>n).\mathbb{E}[X] =\sum_{n=0}^{\infty}\mathbb{E}\bigl[\mathbf{1}_{\{X>n\}}\bigr] =\sum_{n=0}^{\infty}\mathbb{P}(X>n).

对非负实值随机变量 XX,由

XXX\lfloor X\rfloor \leq X \leq \lceil X\rceil

并对 X,X\lfloor X\rfloor,\lceil X\rceil 分别应用上题,可得

E[X]=n=0P(X>n)=n=1P(Xn),\mathbb{E}[\lfloor X\rfloor] =\sum_{n=0}^{\infty}\mathbb{P}(\lfloor X\rfloor>n) =\sum_{n=1}^{\infty}\mathbb{P}(X\geq n), E[X]=n=0P(X>n)=n=0P(X>n).\mathbb{E}[\lceil X\rceil] =\sum_{n=0}^{\infty}\mathbb{P}(\lceil X\rceil>n) =\sum_{n=0}^{\infty}\mathbb{P}(X>n).

n=1P(Xn)E[X]n=0P(X>n).\sum_{n=1}^{\infty}\mathbb{P}(X\geq n)\leq \mathbb{E}[X]\leq \sum_{n=0}^{\infty}\mathbb{P}(X>n).

这个不等式非常重要,它给出了随机变量数学期望的一个简单而且比较紧的估计。

题目:2.2.6

随机图模型 G(n,p)G(n,p)nn 个顶点 V={1,2,,n}V = \{1, 2, \cdots, n\} 的图,两个顶点以概率 pp 连边,且每两个顶点是否连边相互独立。顶点 ii 的度 DiD_i 定义为与 ii 相连的边数。

11DiD_i 的分布列与期望 E[Di]\mathbb{E}[D_i]

22XX 表示 G(n,p)G(n,p) 中"三角形"个数,试求"三角形"期望数 E[X]\mathbb{E}[X] 和方差 Var(X)\operatorname{Var}(X)

证明

对固定顶点 iiDiD_i 是其余 n1n-1 条边中出现的条数,故

DiB(n1,p),E[Di]=(n1)p.D_i \sim B(n-1,p),\qquad \mathbb{E}[D_i]=(n-1)p.

记所有三角形的集合为 T\mathcal{T},对每个 TTT\in \mathcal{T},记 ITI_T 为"三角形 TT 出现"的示性函数,则

X=TTIT,T=(n3).X=\sum_{T\in \mathcal{T}} I_T,\qquad |\mathcal{T}|=\binom{n}{3}.

于是

E[X]=TTE[IT]=(n3)p3.\mathbb{E}[X]=\sum_{T\in \mathcal{T}}\mathbb{E}[I_T]=\binom{n}{3}p^3.

再看方差,

Var(X)=TTVar(IT)+2T<SCov(IT,IS).\operatorname{Var}(X)=\sum_{T\in \mathcal{T}}\operatorname{Var}(I_T)+2\sum_{T<S}\operatorname{Cov}(I_T,I_S).

其中

Var(IT)=p3(1p3).\operatorname{Var}(I_T)=p^3(1-p^3).

若两个不同三角形没有公共边,则对应边集独立,协方差为 00;若共用两条边时,

E[ITIS]=p5,Cov(IT,IS)=p5p6=p5(1p).\mathbb{E}[I_TI_S]=p^5,\qquad \operatorname{Cov}(I_T,I_S)=p^5-p^6=p^5(1-p).

而共用一条边的三角形对数为

(n2)(n22)=6(n4).\binom{n}{2}\binom{n-2}{2}=6\binom{n}{4}.

Var(X)=(n3)p3(1p3)+12(n4)p5(1p).\operatorname{Var}(X)=\binom{n}{3}p^3(1-p^3)+12\binom{n}{4}p^5(1-p).

习题2.3

旁注

概率方法通常先随机化构造,再用期望推出存在性。结论是确定性的,随机性只是证明工具。

题目:2.3.1

Daniel Bernoulli 在 1769 年描述了"扩散模型":A 瓶有 nn 个红球,B 瓶有 nn 个蓝球,每次从两瓶中各选一个球并相互交换。求进行 kk 次操作后 A 瓶中的红球数的期望。

证明

对于A瓶初始的每一个球,先求第kk次交换后仍在A瓶的概率pkp_k,则p0=1p_0 =1,且

pk+1=n1npk+1n(1pk),p_{k+1}=\frac{n-1}{n}p_{k}+\frac{1}{n}(1-p_k),

pk=((n2n)k+1)12,p_k=\left( \left( \frac{n-2}{n} \right)^{k}+1 \right)\cdot \frac{1}{2},

因此对A瓶原来的nn个球编号,第ii个球第kk次交换后在AA瓶个数为IiI_i,则N=I1+I2++InN=I_{1}+I_2 +\cdots +I_n

E(N)=i=1nE(Ii)=npk=n2((n2n)k+1).\mathbb{E} (N)=\sum_{i=1}^n \mathbb{E} (I_i)=np_k=\frac{n}{2}\left( \left( \frac{n-2}{n} \right)^{k}+1 \right).
题目:2.3.2

G=(V,E)G=(V,E) 是有限图,其中 VVGG 的顶点集,EEGG 的边集。对任意顶点集 WW 和任一边 eEe\in E,定义示性函数

1W(e)={1,e 连接 W 和 Wc,0,否则.\mathbf{1}_W(e)= \begin{cases} 1, & e \text{ 连接 } W \text{ 和 } W^c,\\ 0, & \text{否则}. \end{cases}

NW=eE1W(e).N_W=\sum_{e\in E} \mathbf{1}_W(e).

利用概率方法证明存在 WVW\subset V 使得 NWE/2N_W \ge |E|/2

证明

我们独立地取VV的每个点,取每个点概率为12\frac{1}{2},记取出的顶点集WW,随机变量N=NWN=N_W,则

E(NW)=eEE(IW(e))=E212(112)=E2,\mathbb{E} (N_W)=\sum_{e\in E}\mathbb{E} (I_W(e))=\vert E \vert \cdot 2\frac{1}{2}\left( 1-\frac{1}{2} \right) =\frac{\vert E \vert}{2},

故存在一种取法使得NWE2N_W\geq \frac{\vert E \vert}{2}

题目:2.3.3

一个盒子里有标号为 1,2,,n1,2,\cdots,nnn 个球。现从中不放回地随机取出 kk 个球并把它们的标号相加得到和数。求该和数的期望和方差。

证明

记和数为 XX,对每个 i=1,2,,ni=1,2,\cdots,n,记

Ii=1{第 i 号球被取到},I_i=\mathbf{1}_{\{\text{第 }i\text{ 号球被取到}\}},

X=i=1niIi.X=\sum_{i=1}^n iI_i.

由于每个球被取到的概率都为kn\frac{k}{n},故

E(X)=i=1niE(Ii)=kni=1ni=k(n+1)2.\mathbb{E} (X)=\sum_{i=1}^n i\mathbb{E}(I_i)=\frac{k}{n}\sum_{i=1}^n i=\frac{k(n+1)}{2}.

再求方差. 由

Var(X)=i=1ni2Var(Ii)+21i<jnijCov(Ii,Ij),\operatorname{Var}(X)=\sum_{i=1}^n i^2\operatorname{Var}(I_i)+2\sum_{1\leq i<j\leq n}ij\operatorname{Cov}(I_i,I_j),

先有

Var(Ii)=kn(1kn)=k(nk)n2.\operatorname{Var}(I_i)=\frac{k}{n}\left( 1-\frac{k}{n} \right)=\frac{k(n-k)}{n^2}.

iji\neq j,有

P(Ii=1,Ij=1)=(n2k2)(nk)=k(k1)n(n1),\mathbb{P} (I_i=1,I_j=1)=\frac{\binom{n-2}{k-2}}{\binom{n}{k}}=\frac{k(k-1)}{n(n-1)},

Cov(Ii,Ij)=k(k1)n(n1)k2n2=k(nk)n2(n1).\operatorname{Cov}(I_i,I_j)=\frac{k(k-1)}{n(n-1)}-\frac{k^2}{n^2}=-\frac{k(n-k)}{n^2(n-1)}.

于是

Var(X)=k(nk)n2i=1ni22k(nk)n2(n1)1i<jnij=k(nk)n2n(n+1)(2n+1)6k(nk)n2(n1)[(i=1ni)2i=1ni2]=k(nk)n2n(n+1)(2n+1)6k(nk)n2(n1)[n2(n+1)24n(n+1)(2n+1)6]=k(nk)(n+1)12.\begin{aligned} \operatorname{Var}(X)&=\frac{k(n-k)}{n^2}\sum_{i=1}^n i^2-\frac{2k(n-k)}{n^2(n-1)}\sum_{1\leq i<j\leq n}ij\\ &=\frac{k(n-k)}{n^2}\cdot \frac{n(n+1)(2n+1)}{6}-\frac{k(n-k)}{n^2(n-1)}\left[ \left( \sum_{i=1}^n i \right) ^2-\sum_{i=1}^n i^2 \right] \\ &=\frac{k(n-k)}{n^2}\cdot \frac{n(n+1)(2n+1)}{6}-\frac{k(n-k)}{n^2(n-1)}\left[ \frac{n^2(n+1)^2}{4}-\frac{n(n+1)(2n+1)}{6} \right] \\ &=\frac{k(n-k)(n+1)}{12}. \end{aligned}
题目:2.3.6

nn 个向量 v1,v2,,vnRn\mathbf{v}_1,\mathbf{v}_2,\cdots,\mathbf{v}_n \in \mathbb{R}^n 满足 vi1, i=1,2,,n|\mathbf{v}_i|\le 1,\ i=1,2,\cdots,n。令

w=i=1npivi,pi[0,1].\mathbf{w}=\sum_{i=1}^n p_i \mathbf{v}_i,\quad p_i\in[0,1].

利用概率方法证明存在 εi{0,1}\varepsilon_i\in\{0,1\},使得

i=1nεiviwn2.\left|\sum_{i=1}^n \varepsilon_i \mathbf{v}_i - \mathbf{w}\right| \le \frac{\sqrt{n}}{2}.
证明

独立地取εi{0,1}\varepsilon_i \in\{ 0,1 \}其中εi\varepsilon_i11的概率为pip_i, 考虑随机变量

Xi=1nεiviw2=i=1n(εipi)2vi2+21i<jn(εipi)(εjpj)vivj,X\coloneqq \left|\sum_{i=1}^n \varepsilon_i v_i -w \right|^2=\sum_{i=1}^n (\varepsilon_i -p_i)^2\vert v_i \vert^{2}+2\sum_{1\leq i<j\leq n} (\varepsilon_i -p_i)(\varepsilon_j -p_j)v_i\cdot v_j ,

E[X]=i=1nE[(εipi)2]vi2+21i<jnE[(εipi)(εjpj)]vivj=i=1nE[(εipi)2]vi2+21i<jnE(εipi)E(εjpj)vivj=i=1nE[(εipi)2]vi2=i=1npi(1pi)vi2n4,\begin{aligned} \mathbb{E}[X]&=\sum_{i=1}^n \mathbb{E} [(\varepsilon_i -p_i)^2]\vert v_i \vert^{2}+2\sum_{1\leq i<j\leq n}\mathbb{E}[(\varepsilon_i -p_i)(\varepsilon_j -p_j)]v_i\cdot v_j \\ &=\sum_{i=1}^n \mathbb{E} [(\varepsilon_i -p_i)^2]\vert v_i \vert^{2}+2\sum_{1\leq i<j\leq n}\mathbb{E}(\varepsilon_i -p_i)\mathbb{E} (\varepsilon_j -p_j)v_i\cdot v_j \\ &=\sum_{i=1}^n \mathbb{E} [(\varepsilon_i -p_i)^2]\vert v_i \vert^{2}\\ &=\sum_{i=1}^n p_i (1-p_i)\vert v_i \vert^{2}\\ &\leq \frac{n}{4}, \end{aligned}

故存在一种选取方式,使得Xn4X\leq \frac{n}{4},即

i=1nεiviwn2.\left|\sum_{i=1}^n \varepsilon_i v_i -w \right|\leq \frac{\sqrt{n} }{2}.

习题2.4

旁注

这里先按离散情形理解条件期望:给定信息后的平均值,并满足线性性、保正性和塔式法则。

题目:2.4.1

证明条件期望的如下性质:

11 E[aY+bZX]=aE[YX]+bE[ZX], a,bR\mathbb{E}[aY+bZ\mid X]=a\mathbb{E}[Y\mid X]+b\mathbb{E}[Z\mid X],\ \forall a,b\in \mathbb{R}

22Y0Y\geq 0,则 E[YX]0\mathbb{E}[Y\mid X]\geq 0

33 E[1X]=1\mathbb{E}[1\mid X]=1

44XXYY 相互独立,则 E[YX]=E[Y]\mathbb{E}[Y\mid X]=\mathbb{E}[Y]

55 E[Yg(X)X]=g(X)E[YX]\mathbb{E}[Yg(X)\mid X]=g(X)\mathbb{E}[Y\mid X],其中函数 gg 使得等式两边的表达式均有意义。

证明

对任意满足 P(X=x)>0\mathbb{P}(X=x)>0xx,按定义

E[YX=x]=yyP(Y=yX=x).\mathbb{E}[Y\mid X=x]=\sum_y y\mathbb{P}(Y=y\mid X=x).

只需对每个这样的xx分别证明。

11

E[aY+bZX=x]=y,z(ay+bz)P(Y=y,Z=zX=x)=ay,zyP(Y=y,Z=zX=x)+by,zzP(Y=y,Z=zX=x)=aE[YX=x]+bE[ZX=x].\begin{aligned} \mathbb{E}[aY+bZ\mid X=x] &=\sum_{y,z}(ay+bz)\mathbb{P}(Y=y,Z=z\mid X=x)\\ &=a\sum_{y,z}y\mathbb{P}(Y=y,Z=z\mid X=x)+b\sum_{y,z}z\mathbb{P}(Y=y,Z=z\mid X=x)\\ &=a\mathbb{E}[Y\mid X=x]+b\mathbb{E}[Z\mid X=x]. \end{aligned}

22Y0Y\geq 0,则

E[YX=x]=yyP(Y=yX=x)0.\mathbb{E}[Y\mid X=x]=\sum_y y\mathbb{P}(Y=y\mid X=x)\geq 0.

33

E[1X=x]=1.\mathbb{E}[1\mid X=x]=1.

44XXYY 相互独立,则

P(Y=yX=x)=P(Y=y),\mathbb{P}(Y=y\mid X=x)=\mathbb{P}(Y=y),

E[YX=x]=yyP(Y=y)=E[Y].\mathbb{E}[Y\mid X=x]=\sum_y y\mathbb{P}(Y=y)=\mathbb{E}[Y].

55 由于在条件 X=xX=x 下,g(X)=g(x)g(X)=g(x) 是常数,故

E[Yg(X)X=x]=E[Yg(x)X=x]=g(x)E[YX=x].\mathbb{E}[Yg(X)\mid X=x]=\mathbb{E}[Yg(x)\mid X=x]=g(x)\mathbb{E}[Y\mid X=x].

上面各式对任意 xx 都成立,故结论成立。

题目:2.4.2

XXYY 相互独立,分别服从参数为 λ1\lambda_1λ2\lambda_2 的 Poisson 分布。求条件期望 E[XX+Y]\mathbb{E}[X\mid X+Y]

证明

S=X+YS=X+Y,则对 0kn0\leq k\leq n

P(X=kS=n)=P(X=k,Y=nk)P(S=n)=λ1keλ1k!λ2nkeλ2(nk)!(λ1+λ2)ne(λ1+λ2)n!=(nk)(λ1λ1+λ2)k(λ2λ1+λ2)nk.\begin{aligned} \mathbb{P}(X=k\mid S=n) &=\frac{\mathbb{P}(X=k,Y=n-k)}{\mathbb{P}(S=n)}\\ &=\frac{\dfrac{\lambda_1^k e^{-\lambda_1}}{k!}\dfrac{\lambda_2^{n-k} e^{-\lambda_2}}{(n-k)!}}{\dfrac{(\lambda_1+\lambda_2)^n e^{-(\lambda_1+\lambda_2)}}{n!}}\\ &=\binom{n}{k}\left( \frac{\lambda_1}{\lambda_1+\lambda_2} \right)^k\left( \frac{\lambda_2}{\lambda_1+\lambda_2} \right)^{n-k}. \end{aligned}

故在 S=nS=n 条件下,XX 服从参数为 (n,λ1λ1+λ2)\left( n,\dfrac{\lambda_1}{\lambda_1+\lambda_2} \right) 的二项分布,从而

E[XS=n]=nλ1λ1+λ2.\mathbb{E}[X\mid S=n]=n\frac{\lambda_1}{\lambda_1+\lambda_2}.

E[XX+Y]=λ1λ1+λ2(X+Y).\mathbb{E}[X\mid X+Y]=\frac{\lambda_1}{\lambda_1+\lambda_2}(X+Y).
题目:2.4.3

设离散型随机变量 X,YX,Y 的期望均为 00,方差均为 11,协方差为 ρ\rho。证明

E[max{X2,Y2}]1+1ρ2.\mathbb{E}[\max\{X^2,Y^2\}]\leq 1+\sqrt{1-\rho^2}.
证明

注意到

max{X2,Y2}=X2+Y2+X2Y22=X2+Y2+XYX+Y2,\max\{X^2,Y^2\}=\frac{X^2+Y^2+|X^2-Y^2|}{2} =\frac{X^2+Y^2+|X-Y||X+Y|}{2},

E[max{X2,Y2}]=1+12E[XYX+Y].\mathbb{E}[\max\{X^2,Y^2\}] =1+\frac{1}{2}\mathbb{E}[|X-Y||X+Y|].

由 Cauchy 不等式,

E[XYX+Y]E[(XY)2]E[(X+Y)2].\mathbb{E}[|X-Y||X+Y|] \leq \sqrt{\mathbb{E}[(X-Y)^2]\mathbb{E}[(X+Y)^2]}.

E[(XY)2]=Var(XY)=1+12ρ=2(1ρ),\mathbb{E}[(X-Y)^2]=\operatorname{Var}(X-Y)=1+1-2\rho=2(1-\rho), E[(X+Y)2]=Var(X+Y)=1+1+2ρ=2(1+ρ).\mathbb{E}[(X+Y)^2]=\operatorname{Var}(X+Y)=1+1+2\rho=2(1+\rho).

于是

E[XYX+Y]2(1ρ)2(1+ρ)=21ρ2,\mathbb{E}[|X-Y||X+Y|]\leq \sqrt{2(1-\rho)\cdot 2(1+\rho)}=2\sqrt{1-\rho^2},

从而

E[max{X2,Y2}]1+1ρ2.\mathbb{E}[\max\{X^2,Y^2\}]\leq 1+\sqrt{1-\rho^2}.
题目:2.4.5

通常定义 YY 关于 XX 的条件方差 Var(YX)\operatorname{Var}(Y\mid X) 为条件分布 YXY\mid X 的方差,由常用公式

Var(Y)=E[Y2]E[Y]2,\operatorname{Var}(Y)=\mathbb{E}[Y^2]-\mathbb{E}[Y]^2,

我们也可直接定义,

Var(YX)=E[Y2X]E[YX]2.\operatorname{Var}(Y\mid X)=\mathbb{E}[Y^2\mid X]-\mathbb{E}[Y\mid X]^2.

根据上述定义,证明

Var(Y)=E[Var(YX)]+Var(E[YX]).\operatorname{Var}(Y)=\mathbb{E}[\operatorname{Var}(Y\mid X)]+\operatorname{Var}(\mathbb{E}[Y\mid X]).
证明

由定义,

E[Var(YX)]=E[E[Y2X]]E[E[YX]2].\mathbb{E}[\operatorname{Var}(Y\mid X)] =\mathbb{E}[\mathbb{E}[Y^2\mid X]]-\mathbb{E}[\mathbb{E}[Y\mid X]^2].

E[E[Y2X]]=E[Y2],E[E[YX]]=E[Y].\mathbb{E}[\mathbb{E}[Y^2\mid X]]=\mathbb{E}[Y^2],\qquad \mathbb{E}[\mathbb{E}[Y\mid X]]=\mathbb{E}[Y].

E[Var(YX)]=E[Y2]E[E[YX]2].\mathbb{E}[\operatorname{Var}(Y\mid X)] =\mathbb{E}[Y^2]-\mathbb{E}[\mathbb{E}[Y\mid X]^2].

另一方面,

Var(E[YX])=E[E[YX]2]E[E[YX]]2=E[E[YX]2]E[Y]2.\operatorname{Var}(\mathbb{E}[Y\mid X]) =\mathbb{E}[\mathbb{E}[Y\mid X]^2]-\mathbb{E}[\mathbb{E}[Y\mid X]]^2 =\mathbb{E}[\mathbb{E}[Y\mid X]^2]-\mathbb{E}[Y]^2.

两式相加即得

E[Var(YX)]+Var(E[YX])=E[Y2]E[Y]2=Var(Y).\mathbb{E}[\operatorname{Var}(Y\mid X)]+\operatorname{Var}(\mathbb{E}[Y\mid X]) =\mathbb{E}[Y^2]-\mathbb{E}[Y]^2 =\operatorname{Var}(Y).
题目:2.4.8

2024 年诺贝尔物理学奖授予 Hopfield 和 Hinton,表彰他们利用人工神经网络进行机器学习的基础性发现和发明。Hinton 在 Hopfield 网络想法基础上引入了玻尔兹曼机:给定连接两点间权重 wij=wji, wii=0w_{ij}=w_{ji},\ w_{ii}=0,定义取值于 {0,1}n\{0,1\}^nnn 维随机向量

X=(X1,,Xn)X=(X_1,\cdots,X_n)

的联合概率

P(X=x)=1Znexp{1i<jnwijxixj+1inbixi},\mathbb{P}(X=x)=\frac{1}{Z_n}\exp\left\{ \sum_{1\leq i<j\leq n} w_{ij}x_ix_j+\sum_{1\leq i\leq n} b_ix_i \right\},

这里配分函数为

Zn=x{0,1}nexp{1i<jnwijxixj+1inbixi}.Z_n=\sum_{x\in \{0,1\}^n}\exp\left\{ \sum_{1\leq i<j\leq n} w_{ij}x_ix_j+\sum_{1\leq i\leq n} b_ix_i \right\}.

X(k)X^{(k)} 表示 XX 去掉第 kk 个分量后的向量,试证明条件期望

E[XkX(k)]=exp{bk+ikwkiXi}1+exp{bk+ikwkiXi}.\mathbb{E}[X_k\mid X^{(k)}] =\frac{\exp\left\{ b_k+\sum_{i\neq k} w_{ki}X_i \right\}} {1+\exp\left\{ b_k+\sum_{i\neq k} w_{ki}X_i \right\}}.
证明

对任意给定的 x(k)x^{(k)},记

η=bk+ikwkixi.\eta=b_k+\sum_{i\neq k} w_{ki}x_i.

X(k)=x(k)X^{(k)}=x^{(k)} 固定时,联合概率中与 xkx_k 无关的部分可并入常数 CC,从而

P(Xk=xk,X(k)=x(k))=Cexp{xkη},xk=0,1.\mathbb{P}(X_k=x_k,X^{(k)}=x^{(k)}) =C\exp\{x_k\eta\},\qquad x_k=0,1.

于是

P(Xk=1X(k)=x(k))=CeηC+Ceη=eη1+eη.\mathbb{P}(X_k=1\mid X^{(k)}=x^{(k)}) =\frac{Ce^\eta}{C+Ce^\eta} =\frac{e^\eta}{1+e^\eta}.

又因为 XkX_k 只取 0,10,1 两个值,故

E[XkX(k)=x(k)]=P(Xk=1X(k)=x(k))=eη1+eη.\mathbb{E}[X_k\mid X^{(k)}=x^{(k)}] =\mathbb{P}(X_k=1\mid X^{(k)}=x^{(k)}) =\frac{e^\eta}{1+e^\eta}.

E[XkX(k)]=exp{bk+ikwkiXi}1+exp{bk+ikwkiXi}.\mathbb{E}[X_k\mid X^{(k)}] =\frac{\exp\left\{ b_k+\sum_{i\neq k} w_{ki}X_i \right\}} {1+\exp\left\{ b_k+\sum_{i\neq k} w_{ki}X_i \right\}}.

习题2.5

旁注

不等式题要看清用了 Cauchy、Jensen、Markov、Chebyshev 还是 Chernoff;等号条件往往也很重要。

题目:2.5.1

直线上简单随机游走

Sn=k=1nXk,S0=0,S_n=\sum_{k=1}^n X_k,\quad S_0=0,

这里

P(Xi=1)=p,P(Xi=1)=1p,0<p<1.P(X_i=1)=p,\quad P(X_i=-1)=1-p,\quad 0<p<1.

E(Sn), Var(Sn), Cov(Sm,Sn), E[SnSm]E(S_n),\ Var(S_n),\ Cov(S_m,S_n),\ E[S_n\mid S_m].

证明

先记

E(X1)=p(1p)=2p1,Var(X1)=1(2p1)2=4p(1p).E(X_1)=p-(1-p)=2p-1,\qquad \operatorname{Var}(X_1)=1-(2p-1)^2=4p(1-p).

因此

E(Sn)=k=1nE(Xk)=n(2p1),E(S_n)=\sum_{k=1}^n E(X_k)=n(2p-1), Var(Sn)=k=1nVar(Xk)=4np(1p).\operatorname{Var}(S_n)=\sum_{k=1}^n \operatorname{Var}(X_k)=4np(1-p).

又由独立性,

Cov(Sm,Sn)=i=1mj=1nCov(Xi,Xj)=k=1mnVar(Xk)=4p(1p)(mn).\operatorname{Cov}(S_m,S_n) =\sum_{i=1}^m\sum_{j=1}^n \operatorname{Cov}(X_i,X_j) =\sum_{k=1}^{m\wedge n}\operatorname{Var}(X_k) =4p(1-p)(m\wedge n).

最后求条件期望。

nmn\ge m,则

Sn=Sm+k=m+1nXk,S_n=S_m+\sum_{k=m+1}^n X_k,

而后面这段与 SmS_m 独立,故

E[SnSm]=Sm+(nm)(2p1).E[S_n\mid S_m]=S_m+(n-m)(2p-1).

nmn\le m,则在给定 SmS_m 的条件下,X1,,XmX_1,\dots,X_m 的地位完全对称,故

E[X1Sm]==E[XmSm].E[X_1\mid S_m]=\cdots=E[X_m\mid S_m].

k=1mE[XkSm]=E[k=1mXkSm]=E[SmSm]=Sm,\sum_{k=1}^m E[X_k\mid S_m] =E\left[\sum_{k=1}^m X_k\mid S_m\right] =E[S_m\mid S_m] =S_m,

所以

E[XkSm]=Smm,1km.E[X_k\mid S_m]=\frac{S_m}{m},\qquad 1\le k\le m.

从而

E[SnSm]=k=1nE[XkSm]=nmSm.E[S_n\mid S_m]=\sum_{k=1}^n E[X_k\mid S_m]=\frac{n}{m}S_m.

综上,

E[SnSm]={nmSm,nm,Sm+(nm)(2p1),nm.E[S_n\mid S_m]= \begin{cases} \dfrac{n}{m}S_m, & n\le m,\\[6pt] S_m+(n-m)(2p-1), & n\ge m. \end{cases}
题目:2.5.2

在一次只有两个候选人的选举中,每次投票只投给一位候选人且不能弃票。已知最后投票结果 AAα\alpha 张选票,BBβ\beta 张选票,且 αβ\alpha\geq\beta,投票过程中出现的各种情况可能性相同。

  1. 求计票过程中出现两人票数相等的概率。

  2. 证明计票过程中 AA 从不落后于 BB 的概率为

αβ+1α+1.\frac{\alpha-\beta+1}{\alpha+1}.
证明

仿照课本例2.5.4,构造随机游走,令

Xi={1,第 i 票给 A,1,第 i 票给 B,Sk=i=1kXi.X_i= \begin{cases} 1, & \text{第 }i\text{ 票给 }A,\\ -1, & \text{第 }i\text{ 票给 }B, \end{cases} \qquad S_k=\sum_{i=1}^k X_i.

则前 kk 张票计完后,AABB 多出的票数就是 SkS_k。每一种计票次序都对应一条从 (0,0)(0,0)(α+β,αβ)(\alpha+\beta,\alpha-\beta) 的轨道,且这些轨道等可能;轨道总数为

Nα+β(0,αβ)=(α+βα).N_{\alpha+\beta}(0,\alpha-\beta)=\binom{\alpha+\beta}{\alpha}.

11 "计票过程中出现两人票数相等"就是轨道在出发后再次经过 xx 轴。

α=β\alpha=\beta,则终点就在 xx 轴上,故所求概率为 11

α>β\alpha>\beta,则其对立事件是"轨道不再过 xx 轴",也就是计票过程中 AA 始终领先于 BB。由投票定理,

#{从 (0,0) 到 (α+β,αβ) 不再过 x 轴的轨道}=αβα+βNα+β(0,αβ).\#\{\text{从 }(0,0)\text{ 到 }(\alpha+\beta,\alpha-\beta)\text{ 不再过 }x\text{ 轴的轨道}\} =\frac{\alpha-\beta}{\alpha+\beta}N_{\alpha+\beta}(0,\alpha-\beta).

因此

P(出现票数相等)=1αβα+β=2βα+β.P(\text{出现票数相等}) =1-\frac{\alpha-\beta}{\alpha+\beta} =\frac{2\beta}{\alpha+\beta}.

α=β\alpha=\beta 时,此式也仍为 11

22 "AA 从不落后于 BB"就是对一切 kk 都有 Sk0S_k\ge 0

把每一条这样的轨道最前面补上一条向上的边,就得到一条从 (0,0)(0,0)(α+β+1,αβ+1)(\alpha+\beta+1,\alpha-\beta+1) 且不再过 xx 轴的轨道;反过来,删去第一步也可恢复原轨道,所以这是一个一一对应。

于是由投票定理,

#{A 从不落后于 B 的轨道}=αβ+1α+β+1Nα+β+1(0,αβ+1).\#\{\text{$A$ 从不落后于 $B$ 的轨道}\} =\frac{\alpha-\beta+1}{\alpha+\beta+1}N_{\alpha+\beta+1}(0,\alpha-\beta+1).

Nα+β+1(0,αβ+1)=(α+β+1α+1),N_{\alpha+\beta+1}(0,\alpha-\beta+1)=\binom{\alpha+\beta+1}{\alpha+1},

#{A 从不落后于 B 的轨道}=αβ+1α+β+1(α+β+1α+1)=αβ+1α+1(α+βα).\#\{\text{$A$ 从不落后于 $B$ 的轨道}\} =\frac{\alpha-\beta+1}{\alpha+\beta+1}\binom{\alpha+\beta+1}{\alpha+1} =\frac{\alpha-\beta+1}{\alpha+1}\binom{\alpha+\beta}{\alpha}.

再除以总轨道数 (α+βα)\binom{\alpha+\beta}{\alpha},得

P(A 从不落后于 B)=αβ+1α+1.P(\text{$A$ 从不落后于 $B$})=\frac{\alpha-\beta+1}{\alpha+1}.
题目:2.5.3

直线上简单对称随机游走 Sn, S0=0S_n,\ S_0=0。设

T=min{n1:Sn=0}T=\min\{n\geq 1:S_n=0\}

为第一次回到出发点的时刻。证明

P(T=2n)=12n1(2nn)22n,P(T=2n)=\frac{1}{2n-1}\binom{2n}{n}2^{-2n},

并讨论 α\alpha 取何值时 E[Tα]<E[T^\alpha]<\infty

注. 可以利用 Stirling 公式:n!nnen2πnn!\sim n^n e^{-n}\sqrt{2\pi n}

证明

显然 TT 只能取偶数。记

An+={T=2n, X1=1},An={T=2n, X1=1}.A_n^+=\{T=2n,\ X_1=1\},\qquad A_n^-=\{T=2n,\ X_1=-1\}.

由对称性,

P(T=2n)=P(An+)+P(An)=2P(An+).P(T=2n)=P(A_n^+)+P(A_n^-)=2P(A_n^+).

现在来数满足 An+A_n^+ 的轨道。若 T=2nT=2n 且第一步走到 11,则

S1,S2,,S2n1>0,S2n=0.S_1,S_2,\cdots,S_{2n-1}>0,\qquad S_{2n}=0.

把这条轨道倒过来读,便得到一条从 (0,0)(0,0)(2n1,1)(2n-1,1) 且在出发后不再过 xx 轴的轨道;反过来也可以恢复原轨道,所以这是一个一一对应。

由投票定理,

#{满足 An+ 的轨道}=12n1N2n1(0,1)=12n1(2n1n).\#\{\text{满足 }A_n^+\text{ 的轨道}\} =\frac{1}{2n-1}N_{2n-1}(0,1) =\frac{1}{2n-1}\binom{2n-1}{n}.

每条长为 2n2n 的轨道概率都是 22n2^{-2n},故

P(T=2n)=212n1(2n1n)22n=12n1(2nn)22n.\begin{aligned} P(T=2n) &=2\cdot \frac{1}{2n-1}\binom{2n-1}{n}2^{-2n} \\ &=\frac{1}{2n-1}\binom{2n}{n}2^{-2n}. \end{aligned}

下面讨论 E[Tα]E[T^\alpha]。由 Stirling 公式,

(2nn)4nπn,\binom{2n}{n}\sim \frac{4^n}{\sqrt{\pi n}},

从而

P(T=2n)=12n1(2nn)22n12πn3/2.P(T=2n)=\frac{1}{2n-1}\binom{2n}{n}2^{-2n}\sim \frac{1}{2\sqrt{\pi}}n^{-3/2}.

因此

E[Tα]=n=1(2n)αP(T=2n)n=1nα3/2.E[T^\alpha]=\sum_{n=1}^\infty (2n)^\alpha P(T=2n) \asymp \sum_{n=1}^\infty n^{\alpha-3/2}.

而幂级数 nα3/2\sum n^{\alpha-3/2} 收敛当且仅当

α32<1,\alpha-\frac32<-1,

α<12.\alpha<\frac12.

E[Tα]<    α<12.E[T^\alpha]<\infty \iff \alpha<\frac12.
题目:2.5.4

考虑一质点,它沿着按一个圆周排列的标以 0,1,,m0,1,\cdots,mm+1m+1 个节点移动。在每一步质点等概率按顺时针或逆时针方向移动至下一个位置。现在质点从 00 出发按上述规则移动,直到节点 1,2,,m1,2,\cdots,m 均被访问过为止。

  1. 证明质点以概率 11 访问所有点 1,2,,m1,2,\cdots,m

  2. 求最后一个被访问的节点是 i(1im)i(1\leq i\leq m) 的概率。

证明

(1) 对每个固定的 i{1,2,,m}i\in\{1,2,\cdots,m\},记Ai={质点最终访问到节点 i}A_i=\{\text{质点最终访问到节点 }i\}, 再对每个 r1r\ge 1,记

Br={在第 (r1)m+1,(r1)m+2,,rm 步中,节点 i 从未被访问}.B_r=\{\text{在第 }(r-1)m+1,\,(r-1)m+2,\cdots,rm\text{ 步中,节点 }i\text{ 从未被访问}\}.

无论第 (r1)m(r-1)m 步末质点在哪个节点,总可以选定一个方向,使其在接下来的至多 mm 步内到达 ii;这一特定走法的条件概率至少为 2m2^{-m}。因此

P(Br前 (r1)m 步的一切结果)12m.P(B_r\mid \text{前 }(r-1)m\text{ 步的一切结果})\le 1-2^{-m}.

从而对任意 N1N\ge 1

P(B1BN)(12m)N.P(B_1\cap\cdots\cap B_N)\le (1-2^{-m})^N.

AicA_i^c 发生,则每一段长为 mm 的时间里都不会访问到 ii,故对任意 N1N\ge 1

AicB1BN.A_i^c\subseteq B_1\cap\cdots\cap B_N.

从而

P(Aic)P(B1BN)(12m)N.P(A_i^c)\le P(B_1\cap\cdots\cap B_N)\le (1-2^{-m})^N.

NN\to\infty,得 P(Ai)=1P(A_i)=1。这对每个 i=1,2,,mi=1,2,\cdots,m 都成立。由于只有有限个点,

P(i=1mAi)=1.P\Bigl(\bigcap_{i=1}^m A_i\Bigr)=1.

故质点以概率 11 访问所有点 1,2,,m1,2,\cdots,m

22

pi=P(最后一个被访问的节点是 i),1im.p_i=P(\text{最后一个被访问的节点是 }i),\qquad 1\le i\le m.

由(1)知i=1mpi=1\sum_{i=1}^m p_i=1

2im12\le i\le m-1,对第一步用全概率公式:

pi=12P(第一步到 1 后,最后一个被访问的是 i)+12P(第一步到 m 后,最后一个被访问的是 i).\begin{aligned} p_i &=\frac12 P(\text{第一步到 }1\text{ 后,最后一个被访问的是 }i) \\ &\quad +\frac12 P(\text{第一步到 }m\text{ 后,最后一个被访问的是 }i). \end{aligned}

若第一步走到 11,又最后一个被访问的是 ii,则在到达 ii 之前,节点 00 必已再次被访问;否则质点不可能"跨过" ii 去访问另一侧的节点。于是此时"最后一个被访问的是 ii"这件事,与"从 11 出发,把其余 mm 个点都看作尚未访问时,最后一个被访问的是 ii"是同一事件。再把节点重标为

10,21,,mm1,0m,1\mapsto 0,\quad 2\mapsto 1,\quad \cdots,\quad m\mapsto m-1,\quad 0\mapsto m,

便回到原问题的同一形式,所以

P(第一步到 1 后,最后一个被访问的是 i)=pi1.P(\text{第一步到 }1\text{ 后,最后一个被访问的是 }i)=p_{i-1}.

同理,

P(第一步到 m 后,最后一个被访问的是 i)=pi+1.P(\text{第一步到 }m\text{ 后,最后一个被访问的是 }i)=p_{i+1}.

pi=pi1+pi+12,2im1.p_i=\frac{p_{i-1}+p_{i+1}}{2},\qquad 2\le i\le m-1.

这说明 p1,,pmp_1,\cdots,p_m 成等差数列。

再由关于节点 00 的对称性,得 p1=pmp_1=p_m。而等差数列首末项相等,只能是常数列,故

p1=p2==pm.p_1=p_2=\cdots=p_m.

结合 i=1mpi=1\sum_{i=1}^m p_i=1,即得

pi=1m,1im.p_i=\frac1m,\qquad 1\le i\le m.

习题2.6

旁注

这里反复用到尾部控制:先把概率界化为期望界,再用求和或积分收束。

题目:2.6.1

G1,G2G_1,G_2 是概率母函数,0α10\leq \alpha \leq 1。证明 G1G2G_1G_2αG1+(1α)G2\alpha G_1+(1-\alpha)G_2 也是概率母函数。问

G(αs)G(α)\frac{G(\alpha s)}{G(\alpha)}

是否依然是概率母函数?

证明

Gi(s)=n=0pn(i)sn,pn(i)0,n=0pn(i)=1,i=1,2.G_i(s)=\sum_{n=0}^\infty p_n^{(i)}s^n,\qquad p_n^{(i)}\geq 0,\qquad \sum_{n=0}^\infty p_n^{(i)}=1,\quad i=1,2.

G1(s)G2(s)=n=0(k=0npk(1)pnk(2))sn.G_1(s)G_2(s)=\sum_{n=0}^\infty \left( \sum_{k=0}^n p_k^{(1)}p_{n-k}^{(2)} \right) s^n.

各项系数非负,且

n=0k=0npk(1)pnk(2)=(n=0pn(1))(n=0pn(2))=1,\sum_{n=0}^\infty \sum_{k=0}^n p_k^{(1)}p_{n-k}^{(2)} =\left( \sum_{n=0}^\infty p_n^{(1)} \right)\left( \sum_{n=0}^\infty p_n^{(2)} \right)=1,

G1G2G_1G_2 是概率母函数。

αG1(s)+(1α)G2(s)=n=0(αpn(1)+(1α)pn(2))sn,\alpha G_1(s)+(1-\alpha)G_2(s) =\sum_{n=0}^\infty \left( \alpha p_n^{(1)}+(1-\alpha)p_n^{(2)} \right) s^n,

其系数也都非负,且和为

n=0(αpn(1)+(1α)pn(2))=α+(1α)=1,\sum_{n=0}^\infty \left( \alpha p_n^{(1)}+(1-\alpha)p_n^{(2)} \right)=\alpha +(1-\alpha)=1,

αG1+(1α)G2\alpha G_1+(1-\alpha)G_2 也是概率母函数。

再设

G(s)=n=0pnsn.G(s)=\sum_{n=0}^\infty p_ns^n.

G(α)>0G(\alpha)>0 时,

G(αs)G(α)=n=0pnαnG(α)sn.\frac{G(\alpha s)}{G(\alpha)} =\sum_{n=0}^\infty \frac{p_n\alpha^n}{G(\alpha)}s^n.

其系数非负,且

n=0pnαnG(α)=G(α)G(α)=1,\sum_{n=0}^\infty \frac{p_n\alpha^n}{G(\alpha)}=\frac{G(\alpha)}{G(\alpha)}=1,

故它仍是概率母函数。特别地,当 α(0,1]\alpha\in(0,1] 时总成立;若 α=0\alpha=0,则只有在 G(0)>0G(0)>0 时该式才有意义,此时它恒等于 11,也仍是概率母函数。

题目:2.6.3

XX 服从参数为 p (0<p<1)p\ (0<p<1) 的几何分布,即

P(X=k)=(1p)k1p,k=1,2,,\mathbb{P}(X=k)=(1-p)^{k-1}p,\quad k=1,2,\cdots,

又设非负整值随机变量 YY 的概率母函数为 G(s)G(s),且 YYXX 独立。证明

P(X>Y)=G(1p).\mathbb{P}(X>Y)=G(1-p).
证明

由全概率公式和独立性,

P(X>Y)=n=0P(X>n,Y=n)=n=0P(X>n)P(Y=n).\mathbb{P}(X>Y)=\sum_{n=0}^\infty \mathbb{P}(X>n,Y=n) =\sum_{n=0}^\infty \mathbb{P}(X>n)\mathbb{P}(Y=n).

P(X>n)=k=n+1(1p)k1p=(1p)n.\mathbb{P}(X>n)=\sum_{k=n+1}^\infty (1-p)^{k-1}p=(1-p)^n.

P(X>Y)=n=0(1p)nP(Y=n)=G(1p).\mathbb{P}(X>Y)=\sum_{n=0}^\infty (1-p)^n\mathbb{P}(Y=n)=G(1-p).
题目:2.6.4

证明

G(x,y,z,w)=18(xyzw+xy+yz+zw+xw+yw+xz+1)G(x,y,z,w)=\frac{1}{8}(xyzw+xy+yz+zw+xw+yw+xz+1)

44 个两两独立、三三独立但不相互独立的随机变量的联合母函数。

证明

G(x,y,z,w)=18(xyzw+xy+yz+zw+xw+yw+xz+1)G(x,y,z,w)=\frac{1}{8}(xyzw+xy+yz+zw+xw+yw+xz+1)

可见各项系数都非负,且系数和为 11,故它确是某个四维随机向量的联合母函数。

对边缘母函数,有

GX(x)=G(x,1,1,1)=1+x2,G_X(x)=G(x,1,1,1)=\frac{1+x}{2},

其余三个也一样。

再看二维联合母函数,

GX,Y(x,y)=G(x,y,1,1)=(1+x)(1+y)4=GX(x)GY(y).G_{X,Y}(x,y)=G(x,y,1,1)=\frac{(1+x)(1+y)}{4}=G_X(x)G_Y(y).

由对称性,任意两个随机变量都独立。

再看三维联合母函数,

GX,Y,Z(x,y,z)=G(x,y,z,1)=(1+x)(1+y)(1+z)8=GX(x)GY(y)GZ(z).G_{X,Y,Z}(x,y,z)=G(x,y,z,1)=\frac{(1+x)(1+y)(1+z)}{8}=G_X(x)G_Y(y)G_Z(z).

由对称性,任意三个随机变量也都独立。

但若四个随机变量相互独立,则其联合母函数应为

GX(x)GY(y)GZ(z)GW(w)=(1+x)(1+y)(1+z)(1+w)16,G_X(x)G_Y(y)G_Z(z)G_W(w)=\frac{(1+x)(1+y)(1+z)(1+w)}{16},

这显然不等于 G(x,y,z,w)G(x,y,z,w),例如右边含有 xx 项而左边没有,故它们不相互独立。

补充内容

旁注

分布函数刻画偏解析性质,随机游走偏递推和停时直觉;两部分可以分开读。

课程拾遗

定理:分布函数的刻画

F:RRF:\mathbb{R}\to\mathbb{R} 是一个函数,则 FF 是某个随机变量的分布函数,当且仅当它满足以下三个性质:

  1. 单调不减性:对于任意 x1<x2x_1<x_2,有 F(x1)F(x2)F(x_1)\leq F(x_2)

  2. 右连续性:对于任意 xRx\in\mathbb{R},有 limyx+F(y)=F(x)\lim_{y\to x^+}F(y)=F(x)

  3. 规范性limxF(x)=0\lim_{x\to-\infty}F(x)=0,且 limx+F(x)=1\lim_{x\to+\infty}F(x)=1

证明

必要性略。下面证明充分性。

FF 满足以上三条性质。取一个服从 U(0,1)U(0,1) 的随机变量 UU,定义

X=inf{tR:F(t)U}.X=\inf\{t\in\mathbb{R}:F(t)\geq U\}.

limxF(x)=0\lim_{x\to-\infty}F(x)=0limx+F(x)=1\lim_{x\to+\infty}F(x)=1 可知,上面的集合非空且有下界,因此 XX 的定义是有意义的。

对任意 xRx\in\mathbb{R},若 UF(x)U\leq F(x),则 x{t:F(t)U}x\in\{t:F(t)\geq U\},从而 XxX\leq x。故

{UF(x)}{Xx}.\{U\leq F(x)\}\subseteq \{X\leq x\}.

反过来,若 XxX\leq x,则对每个 n1n\geq 1 都可取某个 tn<x+1nt_n<x+\frac{1}{n} 使得 F(tn)UF(t_n)\geq U。由 FF 单调不减,

UF(tn)F(x+1n).U\leq F(t_n)\leq F\left(x+\frac{1}{n}\right).

nn\to\infty,再用 FF 的右连续性,就得 UF(x)U\leq F(x)。因此

{Xx}{UF(x)}.\{X\leq x\}\subseteq \{U\leq F(x)\}.

于是

{Xx}={UF(x)},\{X\leq x\}=\{U\leq F(x)\},

从而

P(Xx)=P(UF(x))=F(x).\mathbb{P}(X\leq x)=\mathbb{P}(U\leq F(x))=F(x).

所以 FF 正是随机变量 XX 的分布函数。

好题共赏

题目:简单随机游走的吸收时间

{Sn}n0\{S_n\}_{n\geq 0} 是状态空间 {0,1,,L}\{0,1,\dots,L\} 上的简单随机游走,且 00LL 都是吸收态。若 S0=1S_0=1,求在第 nn 步恰好被吸收的概率。

证明

记吸收时刻为

τ=inf{n0:Sn{0,L}}.\tau=\inf\{n\geq 0:S_n\in\{0,L\}\}.

x=1,2,,L1x=1,2,\dots,L-1,记

P(x,n)=P(Sn=x, τ>n),P(x,n)=\mathbb{P}(S_n=x,\ \tau>n),

P(x,n)=12P(x1,n1)+12P(x+1,n1),P(x,n)=\frac{1}{2}P(x-1,n-1)+\frac{1}{2}P(x+1,n-1),

并满足边界条件

P(0,n)=P(L,n)=0,P(0,n)=P(L,n)=0,

以及初值

P(x,0)=1{x=1}.P(x,0)=\mathbf{1}_{\{x=1\}}.

由于边界为零,对空间变量作正弦展开

P(x,n)=m=1L1am(n)sinmπxL,P(x,n)=\sum_{m=1}^{L-1}a_m(n)\sin\frac{m\pi x}{L},

代入递推式得

am(n)=am(n1)cosmπL,a_m(n)=a_m(n-1)\cos\frac{m\pi}{L},

am(n)=am(0)cosnmπL.a_m(n)=a_m(0)\cos^n\frac{m\pi}{L}.

再由初值可得

am(0)=2LsinmπL.a_m(0)=\frac{2}{L}\sin\frac{m\pi}{L}.

于是

P(x,n)=m=1L12LsinmπLcosnmπLsinmπxL.P(x,n)=\sum_{m=1}^{L-1}\frac{2}{L}\sin\frac{m\pi}{L}\cos^n\frac{m\pi}{L}\sin\frac{m\pi x}{L}.

从而

P(τ>n)=x=1L1P(x,n),\mathbb{P}(\tau>n)=\sum_{x=1}^{L-1}P(x,n),

所以

P(τ=n)=P(τ>n1)P(τ>n).\mathbb{P}(\tau=n)=\mathbb{P}(\tau>n-1)-\mathbb{P}(\tau>n).

这就把题目化成了上面的显式表达式。

若从任意初始位置 i{1,2,,L1}i\in\{1,2,\dots,L-1\} 出发,只需把初值改成

P(x,0)=1{x=i},P(x,0)=\mathbf{1}_{\{x=i\}},

其余推导完全相同。

题目:首次连续成功的分布

设独立重复掷一枚硬币,每次出现正面的概率为 pp,反面的概率为 q=1pq=1-p。记 NN 为首次连续 mm 次出现正面所需的抛掷次数,求 NN 的生成函数。

证明

Pn=P(N=n),nm.P_n=\mathbb{P}(N=n),\qquad n\geq m.

显然

Pn=0(n<m),Pm=pm.P_n=0\quad(n<m),\qquad P_m=p^m.

n>mn>m,按前 mm 次中第一次出现反面的位置分类,可得递推

Pn=qk=1mpk1Pnk,n>m.P_n=q\sum_{k=1}^m p^{k-1}P_{n-k},\qquad n>m.

设生成函数

G(z)=n=mPnzn.G(z)=\sum_{n=m}^{\infty}P_n z^n.

对上式求和得

G(z)pmzm=qn=m+1k=1mpk1Pnkzn.G(z)-p^m z^m =q\sum_{n=m+1}^{\infty}\sum_{k=1}^m p^{k-1}P_{n-k}z^n.

整理得

G(z)pmzm=qz(1+pz++(pz)m1)G(z).G(z)-p^m z^m =qz\bigl(1+pz+\cdots +(pz)^{m-1}\bigr)G(z).

于是

G(z)=pmzm1qz(1+pz++(pz)m1).G(z)=\frac{p^m z^m}{1-qz\bigl(1+pz+\cdots +(pz)^{m-1}\bigr)}.

再用等比数列求和公式

1+pz++(pz)m1=1(pz)m1pz,1+pz+\cdots +(pz)^{m-1}=\frac{1-(pz)^m}{1-pz},

化简得

G(z)=(pz)m(1pz)1z+qpmzm+1.G(z)=\frac{(pz)^m(1-pz)}{1-z+qp^m z^{m+1}}.

这就是 NN 的生成函数。

期中复习

旁注

复习可按组合计数、分布计算、条件概率、期望方差、随机游走来整理。答案和使用条件都值得核一遍。

复习建议是:是把书上的概念、作业里的题型,以及反复讲过的方法重新理一遍。大体上可以按"概念 \to 作业 \to 典型难点"这条线来复习。

一、 基本概念

考试里最容易失分的,往往不是最难的计算,而是概念模糊、定义写不清楚、性质不会用。下面这些内容至少要做到"能自己说清楚定义,能判断一道题该用哪个概念":

  1. 概率空间三要素:样本空间、事件域、概率测度;

  2. 随机变量与分布函数的定义,以及分布函数的基本性质;

  3. 离散型与连续型随机变量,分布列、密度函数、分布函数之间的关系;

  4. 二维随机变量的联合分布、边缘分布、条件分布、独立性;

  5. 数学期望、方差、协方差、相关系数的定义与基本性质;

  6. 条件期望的含义,以及"先条件、后取期望"的思想;

  7. 常见分布的特点:Bernoulli,Binomial,Geometric,Poisson。

这一部分建议大家不要只"看着眼熟",而要真的能脱离讲义自己复述出来。尤其是"什么叫独立""什么叫条件期望""什么叫分布函数",最好都能用一句完整的话说明白。

举两例:

题目:24秋,1

掷两枚均匀硬币,详细写出概率空间三要素,并说明其上存在两个独立的随机变量。

解答

可以取

Ω={HH,HT,TH,TT},\Omega=\{HH,HT,TH,TT\},

其中第一个字母表示第一枚硬币的结果,第二个字母表示第二枚硬币的结果。事件域取为

F=2Ω,\mathcal{F}=2^\Omega,

概率测度 PP

P({ω})=14,ωΩP(\{\omega\})=\frac14,\qquad \omega\in\Omega

给出。

这就写出了概率空间三要素 (Ω,F,P)(\Omega,\mathcal{F},P)

再定义两个随机变量

X=1{第一枚硬币为正面},Y=1{第二枚硬币为正面}.X=\mathbf{1}_{\{\text{第一枚硬币为正面}\}},\qquad Y=\mathbf{1}_{\{\text{第二枚硬币为正面}\}}.

X,YX,Y 都只取 0,10,1 两个值,且

P(X=1)=P(Y=1)=12.P(X=1)=P(Y=1)=\frac12.

进一步,

P(X=i,Y=j)=14=P(X=i)P(Y=j),i,j{0,1}.P(X=i,Y=j)=\frac14=P(X=i)P(Y=j),\qquad i,j\in\{0,1\}.

所以 XXYY 相互独立。

题目:19秋,2

[0,1][0,1] 上给出一个概率空间,并问

A1=[a1,b1],A2=[a2,b2]A_1=[a_1,b_1],\qquad A_2=[a_2,b_2]

何时独立?

解答

Ω=[0,1],F=B([0,1]),P=μ,\Omega=[0,1],\qquad \mathcal{F}=\mathcal{B}([0,1]),\qquad P=\mu,

其中 μ\mu 表示 [0,1][0,1] 上由区间长度给出的 Borel 概率测度,即对任意闭区间 [a,b][0,1][a,b]\subset[0,1]

P([a,b])=ba.P([a,b])=b-a.

1=b1a1,2=b2a2.\ell_1=b_1-a_1,\qquad \ell_2=b_2-a_2.

A1,A2A_1,A_2 独立当且仅当

P(A1A2)=P(A1)P(A2)=12.P(A_1\cap A_2)=P(A_1)P(A_2)=\ell_1\ell_2.

不妨设 a1a2a_1\leq a_2

(1)b1a2b_1\leq a_2,则两区间至多在一个点相交,所以

P(A1A2)=0.P(A_1\cap A_2)=0.

此时独立当且仅当 12=0\ell_1\ell_2=0,也就是至少有一个区间退化成一点。

(2)a2b2b1a_2\leq b_2\leq b_1,则 A2A1A_2\subset A_1,于是

P(A1A2)=P(A2)=2.P(A_1\cap A_2)=P(A_2)=\ell_2.

独立要求

2=12,\ell_2=\ell_1\ell_2,

所以或者 2=0\ell_2=0,或者 1=1\ell_1=1。也就是说,或者 A2A_2 是单点,或者 A1=[0,1]A_1=[0,1]

(3)a2<b1<b2a_2<b_1<b_2,则是部分重叠但互不包含。记

x=a2a1,y=b1a2,z=b2b1,x=a_2-a_1,\qquad y=b_1-a_2,\qquad z=b_2-b_1,

x,y,z>0x,y,z>0,并且

1=x+y,2=y+z,P(A1A2)=y.\ell_1=x+y,\qquad \ell_2=y+z,\qquad P(A_1\cap A_2)=y.

若独立,则应有

y=(x+y)(y+z)=y2+y(x+z)+xz>y,y=(x+y)(y+z)=y^2+y(x+z)+xz>y,

矛盾。因此这种情形不可能独立。

综上,在这个概率空间上,两个闭区间独立当且仅当至少有一个区间的概率是 0011;也就是说,至少有一个区间要么退化成单点,要么就是整个 [0,1][0,1]

二、 作业回顾

作业题本身就是最重要的复习资料。很多考点会以相似(甚至相同)形式反复出现,所以必须所有的作业题都会做。

其中建议重点回看的例子包括:

  1. X,YX,Y 独立,且 XPoisson(λ1)X\sim \mathrm{Poisson}(\lambda_1)YPoisson(λ2)Y\sim \mathrm{Poisson}(\lambda_2),求
E[XX+Y].\mathbb{E}[X\mid X+Y].
  1. NPoisson(λ)N\sim \mathrm{Poisson}(\lambda),在给定 NN 的条件下抛 NN 次硬币,设得到的正面数为 XX,求
E[NX].\mathbb{E}[N\mid X].
  1. 设直线上简单随机游走
Sn=k=1nXk,S0=0,S_n=\sum_{k=1}^n X_k,\qquad S_0=0,

其中

P(Xi=1)=p,P(Xi=1)=1p,0<p<1.\mathbb{P}(X_i=1)=p,\qquad \mathbb{P}(X_i=-1)=1-p,\qquad 0<p<1.

mnm\leq n,求

Cov(Sn,Sm)Var(SnSm).\operatorname{Cov}(S_n,S_m) \quad\text{与}\quad \operatorname{Var}(S_n\mid S_m).

需要掌握的方法和技术有:

  1. Cauchy 不等式,以及它在估计、证方差非负、控制期望量级中的基本用法;

  2. Markov 不等式,以及由"期望控制尾概率"这一思路出发的简单估计;

  3. 全期望公式("匿名统计学家公式");

  4. 随机变量拆成示性 r.v. 之和,方便期望、方差甚至高阶矩计算。

三、 典例分析

1. 母函数与矩母函数

母函数/矩母函数的作用:

  1. 普通母函数可以把非负整值随机变量的分布列编码成一个函数,从整体上用分析手段处理分布;

  2. 通过求导可以计算期望、方差以及更高阶矩;

  3. 对独立随机变量,和的母函数/矩母函数等于各自母函数/矩母函数之积,因此便于求和的分布;

  4. 母函数特别适合处理递推关系、首次出现时间等问题;

  5. 矩母函数在存在时常可用来刻画分布,并方便比较不同分布的矩。

题目:对称随机游走与 Catalan 数

{Sn}n0\{S_n\}_{n\geq 0} 为直线上的对称随机游走,S0=0S_0=0,每一步以概率 12\frac12 向右走一步,以概率 12\frac12 向左走一步。求

P(S10,S20,,S2n0,S2n=0).\mathbb{P}(S_1\geq 0,S_2\geq 0,\dots,S_{2n}\geq 0,S_{2n}=0).
解答

Cn:=#{(S1,,S2n):Si0, 1i2n, S2n=0},C0=1.C_n:=\#\{(S_1,\dots,S_{2n}): S_i\geq 0,\ 1\leq i\leq 2n,\ S_{2n}=0\}, \qquad C_0=1.

则所求概率为

P(S10,S20,,S2n0,S2n=0)=Cn22n,\mathbb{P}(S_1\geq 0,S_2\geq 0,\dots,S_{2n}\geq 0,S_{2n}=0)=\frac{C_n}{2^{2n}},

因为每条长度为 2n2n 的轨道出现的概率都等于 22n2^{-2n}

设这条轨道第一次回到原点的时刻是 2k2k,其中 1kn1\leq k\leq n。那么在时刻 1,2,,2k11,2,\dots,2k-1 必有 Si1S_i\geq 1。把这一段轨道整体下移 11,便得到一条从 00 出发、长为 2k22k-2、始终不低于 00、并在末时刻回到 00 的轨道,因此这样的前段共有 Ck1C_{k-1} 条。第一次回到原点以后,后面的 2(nk)2(n-k) 步又是一条同类轨道,共有 CnkC_{n-k} 条。所以

Cn=k=1nCk1Cnk,n1.C_n=\sum_{k=1}^n C_{k-1}C_{n-k},\qquad n\geq 1.

引入母函数

F(z):=n=0Cnzn.F(z):=\sum_{n=0}^{\infty} C_n z^n.

由上式得

F(z)=1+n=1k=1nCk1Cnkzn=1+zF(z)2.\begin{aligned} F(z) &=1+\sum_{n=1}^{\infty}\sum_{k=1}^n C_{k-1}C_{n-k}z^n \\ &=1+zF(z)^2. \end{aligned}

因此

zF(z)2F(z)+1=0,zF(z)^2-F(z)+1=0,

解得

F(z)=114z2z,F(z)=\frac{1-\sqrt{1-4z}}{2z},

这里取使 F(0)=1F(0)=1 的那一支。于是

Cn=1n+1(2nn).C_n=\frac{1}{n+1}\binom{2n}{n}.

因此

P(S10,S20,,S2n0,S2n=0)=122n1n+1(2nn).\mathbb{P}(S_1\geq 0,S_2\geq 0,\dots,S_{2n}\geq 0,S_{2n}=0) =\frac{1}{2^{2n}}\cdot \frac{1}{n+1}\binom{2n}{n}.
题目:25春,6

设非常值随机变量 XnX_n 取值于 {0,1,,2n}\{0,1,\dots,2n\},其母函数G(z)=E[zXn]G(z)=\mathbb{E}[z^{X_n}]2n2n 次多项式,且满足 Lee--Yang 性质:复变量 zz 的方程 G(z)=0G(z)=0 的所有根均在单位圆上。

  1. 写出一个随机变量,其母函数具有 Lee--Yang 性质。

  2. 证明对所有非负整数 mm

E[(Xnn)2m+1]=0.\mathbb{E}\bigl[(X_n-n)^{2m+1}\bigr]=0.
Xn:=XnE[Xn]Var(Xn),X_n^*:=\frac{X_n-\mathbb{E}[X_n]}{\sqrt{\operatorname{Var}(X_n)}},

证明

1E[(Xn)4]<3.1\leq \mathbb{E}\bigl[(X_n^*)^4\bigr]<3.
解答

(i) 一个典型例子是二项分布

XnBin ⁣(2n,12).X_n\sim \mathrm{Bin}\!\left(2n,\frac12\right).

此时

G(z)=(1+z2)2n,G(z)=\left(\frac{1+z}{2}\right)^{2n},

它的全部零点都是 z=1z=-1,位于单位圆上,因此满足 Lee--Yang 性质。

(ii)

Y:=Xnn.Y:=X_n-n.

由于 GG 的系数都是实数,且所有根都在单位圆上,因此这些根成共轭对出现,从而可写成

G(z)=λk=1n(z2akz+1),ak[2,2].G(z)=\lambda\prod_{k=1}^n (z^2-a_k z+1), \qquad a_k\in[-2,2].

于是

MY(t):=E[etY]=entG(et)=λk=1n(et+etak).M_Y(t):=\mathbb{E}[e^{tY}] =e^{-nt}G(e^t) =\lambda\prod_{k=1}^n \bigl(e^t+e^{-t}-a_k\bigr).

右端是 tt 的偶函数,所以 MY(t)M_Y(t) 是偶函数。因而对一切非负整数 mm

E[Y2m+1]=MY(2m+1)(0)=0.\mathbb{E}[Y^{2m+1}] =M_Y^{(2m+1)}(0)=0.

也就是

E[(Xnn)2m+1]=0.\mathbb{E}\bigl[(X_n-n)^{2m+1}\bigr]=0.

(iii) 由上问取 m=0m=0 可知

E[Xn]=n,\mathbb{E}[X_n]=n,

因此 Y=XnE[Xn]Y=X_n-\mathbb{E}[X_n]

MY(t)=E[etY],f(t)=logMY(t).M_Y(t)=\mathbb{E}[e^{tY}],\qquad f(t)=\log M_Y(t).

由于奇数阶矩都为零,

MY(t)=1+E[Y2]2t2+E[Y4]24t4+o(t4),M_Y(t)=1+\frac{\mathbb{E}[Y^2]}{2}t^2+\frac{\mathbb{E}[Y^4]}{24}t^4+o(t^4),

从而

f(t)=E[Y2]2t2+E[Y4]3(E[Y2])224t4+o(t4).f(t)=\frac{\mathbb{E}[Y^2]}{2}t^2 +\frac{\mathbb{E}[Y^4]-3(\mathbb{E}[Y^2])^2}{24}t^4+o(t^4).

另一方面,令 ck:=2ak(0,4]c_k:=2-a_k\in(0,4],则

f(t)=k=1nlog ⁣(ck+t2+t412+o(t4))+logλ,f(t)=\sum_{k=1}^n \log\!\left(c_k+t^2+\frac{t^4}{12}+o(t^4)\right)+\log\lambda,

log ⁣(ck+t2+t412+o(t4))=logck+log ⁣(1+t2ck+t412ck+o(t4))=logck+t2ck+(112ck12ck2)t4+o(t4).\begin{aligned} \log\!\left(c_k+t^2+\frac{t^4}{12}+o(t^4)\right) &=\log c_k+\log\!\left(1+\frac{t^2}{c_k}+\frac{t^4}{12c_k}+o(t^4)\right)\\ &=\log c_k+\frac{t^2}{c_k} +\left(\frac{1}{12c_k}-\frac{1}{2c_k^2}\right)t^4+o(t^4). \end{aligned}

因此

f(t)=C+k=1n[t2ck+(112ck12ck2)t4]+o(t4),f(t)=C+\sum_{k=1}^n\left[ \frac{t^2}{c_k} +\left(\frac{1}{12c_k}-\frac{1}{2c_k^2}\right)t^4 \right]+o(t^4),

其中 CC 为常数。又因为 0<ck4<60<c_k\leq 4<6,所以

112ck12ck2=ck612ck2<0.\frac{1}{12c_k}-\frac{1}{2c_k^2} =\frac{c_k-6}{12c_k^2}<0.

若改写成四阶导数,则

f(4)(0)=24k=1n(112ck12ck2)=k=1n(2ck12ck2)<0.f^{(4)}(0) =24\sum_{k=1}^n\left(\frac{1}{12c_k}-\frac{1}{2c_k^2}\right) =\sum_{k=1}^n\left(\frac{2}{c_k}-\frac{12}{c_k^2}\right)<0.

因此 f(t)f(t)t4t^4 系数为负,故

E[Y4]3(E[Y2])2<0,\mathbb{E}[Y^4]-3(\mathbb{E}[Y^2])^2<0,

E[Y4]<3(E[Y2])2.\mathbb{E}[Y^4]<3(\mathbb{E}[Y^2])^2.

标准化后得到

E[(Xn)4]=E[Y4](E[Y2])2<3.\mathbb{E}\bigl[(X_n^*)^4\bigr] =\frac{\mathbb{E}[Y^4]}{(\mathbb{E}[Y^2])^2}<3.

另一方面,由 Jensen 不等式(或 Cauchy 不等式)

E[(Xn)4](E[(Xn)2])2=1.\mathbb{E}\bigl[(X_n^*)^4\bigr] \geq \bigl(\mathbb{E}[(X_n^*)^2]\bigr)^2 =1.

综上,

1E[(Xn)4]<3.1\leq \mathbb{E}\bigl[(X_n^*)^4\bigr]<3.

2. 简单随机游走及其常见变式

请优先掌握讲义内的所有内容,可阅读前面作业讲解的部分,那几题都需要重点掌握。一定要掌握课本定理2.5.2到定理2.5.5,考试时反射原理、投票定理都可以直接引用。

题目:24秋,5

在只有两位候选人的选举中,每张选票只投给其中一人且不能弃票。已知最终计票结果为 TTα\alpha 张选票,HHβ\beta 张选票,其中 αβ\alpha\geq\beta。若按随机顺序计票,求计票过程中 TT 至多落后 HH 一票的概率。

解答

仿照前面的做法,构造随机游走,令

Xi={1,第 i 票给 T,1,第 i 票给 H,Sk=i=1kXi.X_i= \begin{cases} 1, & \text{第 }i\text{ 票给 }T,\\ -1, & \text{第 }i\text{ 票给 }H, \end{cases} \qquad S_k=\sum_{i=1}^k X_i.

则前 kk 张票计完后,TTHH 多出的票数就是 SkS_k。题目要求的是

Sk1,1kα+β.S_k\ge -1,\qquad 1\le k\le \alpha+\beta.

现在在每一种计票次序最前面补上一张投给 TT 的选票。这样便得到一个新的计票次序:其中 TTα+1\alpha+1 张票,HHβ\beta 张票,而且新序列的每一步满足

1+Sk0.1+S_k\ge 0.

也就是说,原问题恰好化为:在新的选举中,TT 在计票过程中从不落后于 HH

反过来,任何一个"TT 从不落后于 HH"的新计票次序,第一票必为 TT;删去这一票后,就恢复为原问题中的一个合法次序。因此这是一个一一对应。

于是由投票定理(或上面习题2.5.2(2)的结论),合法次序数为

(α+1)β+1(α+1)+1(α+β+1α+1)=αβ+2α+2(α+β+1α+1).\frac{(\alpha+1)-\beta+1}{(\alpha+1)+1}\binom{\alpha+\beta+1}{\alpha+1} =\frac{\alpha-\beta+2}{\alpha+2}\binom{\alpha+\beta+1}{\alpha+1}.

而原问题的总计票次序数为

(α+βα).\binom{\alpha+\beta}{\alpha}.

故所求概率为

αβ+2α+2(α+β+1α+1)(α+βα)=αβ+2α+2α+β+1α+1.\begin{aligned} &\frac{\dfrac{\alpha-\beta+2}{\alpha+2}\binom{\alpha+\beta+1}{\alpha+1}} {\binom{\alpha+\beta}{\alpha}} \\ =&\frac{\alpha-\beta+2}{\alpha+2}\cdot \frac{\alpha+\beta+1}{\alpha+1}. \end{aligned}

P(计票过程中 T 至多落后 H 一票)=(α+β+1)(αβ+2)(α+1)(α+2).P(\text{计票过程中 }T\text{ 至多落后 }H\text{ 一票}) =\frac{(\alpha+\beta+1)(\alpha-\beta+2)}{(\alpha+1)(\alpha+2)}.

3. 概率论与其他学科的交叉

题目:25春,5

概率论与线性代数的结合可能催生有趣的数学问题与方法,且看一例。令Xn=(Xij)X_n=(X_{ij})n×nn\times n 矩阵,n2n^2 个矩阵元 {Xij}\{X_{ij}\} 为相互独立且同分布的对称伯努利随机变量,即

P(Xij=0)=P(Xij=1)=12.\mathbb{P}(X_{ij}=0)=\mathbb{P}(X_{ij}=1)=\frac12.

定义pn=P(det(Xn)为奇数)p_n=\mathbb{P}(\det(X_n)\text{为奇数}), 试回答 (i) 计算 p2,p3p_2,p_3;(ii) 猜测 pnp_n 的一般公式并证明之。

解答

关键观察是:一个整数是奇数,当且仅当它模 2211。因此

det(Xn) 为奇数det(Xn)≢0(mod2).\det(X_n)\text{ 为奇数} \quad\Longleftrightarrow\quad \det(X_n)\not\equiv 0\pmod 2.

也就是说,把 XnX_n 看成 F2={0,1}\mathbf{F}_2=\{0,1\} 上的矩阵时,问题就变成了:

pn=P(Xn 在 F2 上可逆).p_n=\mathbb{P}(X_n\text{ 在 }\mathbf{F}_2\text{ 上可逆}).

现在从"行向量是否线性无关"来计算这个概率。把 XnX_n 的各行记为

R1,R2,,RnF2n.R_1,R_2,\dots,R_n\in \mathbf{F}_2^n.

由于各个矩阵元独立且都以概率 12\frac120,10,1,所以每个 RiR_i 都在 F2n\mathbf{F}_2^n 中等概率取值,并且彼此独立。

第一行非零的概率为

2n12n=12n.\frac{2^n-1}{2^n}=1-2^{-n}.

若前 kk 行已经线性无关,则它们张成的子空间有 2k2^k 个向量,所以第 k+1k+1 行落在这个子空间外的条件概率为

2n2k2n=12kn.\frac{2^n-2^k}{2^n}=1-2^{k-n}.

于是

pn=k=0n1(12kn)=j=1n(12j).p_n=\prod_{k=0}^{n-1}\left(1-2^{k-n}\right) =\prod_{j=1}^{n}\left(1-2^{-j}\right).

因此

p2=(112)(114)=38,p_2=\left(1-\frac12\right)\left(1-\frac14\right)=\frac38, p3=(112)(114)(118)=2164.p_3=\left(1-\frac12\right)\left(1-\frac14\right)\left(1-\frac18\right)=\frac{21}{64}.

所以一般公式为

pn=j=1n(112j).p_n=\prod_{j=1}^{n}\left(1-\frac{1}{2^j}\right).
题目:20秋,4

记对称群 SnS_n 为从 {1,2,,n}\{1,2,\cdots,n\}{1,2,,n}\{1,2,\cdots,n\} 的所有一一映射(共 n!n! 个),从 SnS_n 中均匀等概率选取一个映射 σ\sigma,记其不动点数

X(σ)={kσ(k)=k},X(\sigma)=\left|\{k\mid \sigma(k)=k\}\right|,

对换数

Y(σ)={(i,j)i<j, σ(i)=j, σ(j)=i}.Y(\sigma)=\left|\{(i,j)\mid i<j,\ \sigma(i)=j,\ \sigma(j)=i\}\right|.
  1. 详细给出有关概率空间。

  2. X,YX,Y 是否独立。

  3. 计算 XX 的分布列。

  4. 计算 E[Y]\mathbb{E}[Y]

解答

(1) 概率空间可取为

Ω=Sn,F=2Sn,P(A)=An!(ASn).\Omega=S_n,\qquad \mathcal{F}=2^{S_n},\qquad P(A)=\frac{|A|}{n!}\quad (A\subset S_n).

这里样本点就是一个排列 σ\sigma,而 X,YX,Y 都是定义在 Ω\Omega 上的随机变量。

(2)n2n\geq 2 时,X,YX,Y 不独立。事实上,

P(X=n)=1n!>0,P(X=n)=\frac1{n!}>0,

P(Y>0)>0P(Y>0)>0

因为例如排列 (1 2)(1\ 2) 就有一个对换。另一方面,若 X=nX=n,则 σ\sigma 只能是恒等排列,此时必有 Y=0Y=0。所以

P(X=n,Y>0)=0P(X=n)P(Y>0).P(X=n,Y>0)=0\neq P(X=n)P(Y>0).

X,YX,Y 不独立。

(3)k=0,1,,nk=0,1,\dots,n,先选出哪 kk 个点是不动点,有

(nk)\binom{n}{k}

种选法。剩下的 nkn-k 个点必须都不是不动点,因此对应的是一个错排。记 DmD_mmm 个元素的错排数,则

P(X=k)=(nk)Dnkn!,k=0,1,,n.P(X=k)=\frac{\binom{n}{k}D_{n-k}}{n!},\qquad k=0,1,\dots,n.

再由容斥原理,

Dm=m!j=0m(1)jj!.D_m=m!\sum_{j=0}^{m}\frac{(-1)^j}{j!}.

于是

P(X=k)=1k!j=0nk(1)jj!,k=0,1,,n.P(X=k)=\frac{1}{k!}\sum_{j=0}^{n-k}\frac{(-1)^j}{j!},\qquad k=0,1,\dots,n.

这就是 XX 的分布列。

(4) 对每个 1i<jn1\leq i<j\leq n,定义示性随机变量

Iij=1{σ(i)=j, σ(j)=i}.I_{ij}=\mathbf{1}_{\{\sigma(i)=j,\ \sigma(j)=i\}}.

Y=1i<jnIij.Y=\sum_{1\leq i<j\leq n} I_{ij}.

由期望的线性性,

E[Y]=1i<jnE[Iij]=1i<jnP(σ(i)=j,σ(j)=i).\mathbb{E}[Y]=\sum_{1\leq i<j\leq n}\mathbb{E}[I_{ij}] =\sum_{1\leq i<j\leq n}P(\sigma(i)=j,\sigma(j)=i).

固定一对 i<ji<j 后,使 σ(i)=j,σ(j)=i\sigma(i)=j,\sigma(j)=i 的排列共有 (n2)!(n-2)! 个,所以

P(σ(i)=j,σ(j)=i)=(n2)!n!=1n(n1).P(\sigma(i)=j,\sigma(j)=i)=\frac{(n-2)!}{n!}=\frac{1}{n(n-1)}.

因此

E[Y]=(n2)1n(n1)=12.\mathbb{E}[Y]=\binom{n}{2}\frac{1}{n(n-1)}=\frac12.
章末回看
  • 本章原始题目和解答正文来自对应 TeX 分文件。
  • 可先只看题目框,写出关键等式后再展开证明或解答。
  • 若结论用到独立性、可列可加性、换元公式或矩条件,最好顺手标明。