实分析视角下的概率论
本文摘自实分析期末复习材料。
概率空间
通常,用\(\Omega\)表示样本空间,\(\omega\in\Omega\)为样本点。样本空间的子集\(A\subset\Omega\)称为事件,事件所构成的集合可以用\(\mathscr{F}\)表示。
定义1.1(概率) 设\(\Omega\)是样本空间,\(\mathscr{F}\)是\(\Omega\)上的\(\sigma\)-域,\(\mathbb{P}\)是\(\{\Omega,\mathscr{F}\}\)上的测度,且满足\(\mathbb{P}\{\Omega\}=1\),则\(\mathbb{P}\)为概率,\(\{\Omega,\mathscr{F},\mathbb{P}\}\)为概率空间。
概率其实就是测度,只是外加了\(\mathbb{P}\{\Omega\}=1\)这个条件。在有限的测度下,许多问题都变得非常简单。另外,设\(A\in\mathscr{F}\),则\(\mathbb{P}\{A\}\)也被称为事件\(A\)发生的概率。以下设\(\{\Omega,\mathscr{F},\mathbb{P}\}\)是概率空间。
- 如果\(\Omega\)是有限集,\(\lambda\)是计数测度的话,定义\(\mathbb{P}\{A\}=\dfrac{\lambda(A)}{\lambda(\Omega)}\),这样的概率空间即为古典概型;
- 如果\(\Omega\)是\(\mathbb{R}^n\)中的Lebesgue可测集,\(m\)是Lebesgue测度的话,定义\(\mathbb{P}\{A\}=\dfrac{m(A)}{m(\Omega)}\),这样的概率空间即为几何概型。
定义1.2(分布函数) 设\(F:\mathbb{R}\to\mathbb{R}\)是右连续的单调递增函数,则\(F\)为准分布函数;如果\(F(-\infty)=0\),\(F(+\infty)=1\),则\(F\)为分布函数。
每一个准分布函数\(F\),都决定着\(\mathbb{R}\)上的一个Lebesgue-Stieltjes测度\(m_F\)。
随机变量
定义2.1(随机变量) 设\(X:\Omega\to\mathbb{R}\)是可测函数,则\(X\)为随机变量。
定义2.2(特征函数) 设\(A\in\mathscr{F}\),令 \[ \chi_{A}(\omega)=\begin{cases} 1,& \omega\in A,\\ 0,& \omega\in\Omega\setminus A, \end{cases} \] 则\(\chi_{A}\)是随机变量,为事件\(A\)的特征函数。
定义2.3(分布函数) 设\(X\)是概率空间\(\{\Omega,\mathscr{F},\mathbb{P}\}\)上的随机变量,令 \[ F_X(x)=\mathbb{P}\{X\le x\},\quad x\in\mathbb{R}, \] 则\(F_X(x)\)为\(X\)的分布函数。
可以验证上面所定义的分布函数是右连续的单调递增函数,且\(F(-\infty)=0\),\(F(+\infty)=1\)。事实上,满足这三条性质的函数一定也是某个随机变量的分布函数。
定义2.4(离散型分布) 设\(X\)是概率空间\(\{\Omega,\mathscr{F},\mathbb{P}\}\)上的随机变量,若 \[ \mathrm{Rg} X=\{a_1,a_2,\cdots\} \] 包含至多可数个实数,则其为离散型随机变量,对应的分布函数 \[ F_X(x)=\sum_{a_n\le x}\mathbb{P}\{X=a_n\} \] 为离散型分布。
定义2.5(连续型分布) 设\(X\)是概率空间\(\{\Omega,\mathscr{F},\mathbb{P}\}\)上的随机变量,\(F_X(x)\)为\(X\)的分布函数,若存在非负函数\(p(x)\in L^1(\mathbb{R})\),使得 \[ F_X(x)=\int_{-\infty}^{x}p(t)\mathrm{d}t,\quad x\in\mathbb{R}, \] 则\(X\)为连续型随机变量,\(F_X(x)\)为连续型分布,\(p(x)\)为\(X\)的概率密度。
若\(X\)既不是离散型随机变量,也不是连续型随机变量,则\(X\)为奇异型随机变量。
期望、矩与特征函数
定义3.1(期望) 设\(X\in L^1(\Omega)\),则 \[ \mathbb{E} X=\int_{\Omega}X\mathrm{d}\mathbb{P} \] 为\(X\)的期望。
定理3.2(概率空间的积分) 设\(F_X(x)\)为\(X\)的分布函数,\(g:\mathbb{R}\to\mathbb{R}\)是可测函数,则 \[ \mathbb{E} g(X)=\int_{\mathbb{R}}g\mathrm{d}F_X(x), \] 并且只要等式一端有意义,另一端就有意义。特别地,取\(g(x)=x\),则有 \[ \mathbb{E} X=\int_{\mathbb{R}}x\mathrm{d}F_X(x). \]
若\(X\)是离散型随机变量,设\(\mathrm{Rg} X=\{a_1,a_2,\cdots\},p_n=\mathbb{P}\{X=a_n\},n=1,2,\cdots\),则 \[ \mathbb{E} X=\sum_{n=1}^{+\infty}a_np_n; \] 若\(X\)是连续型随机变量,设密度函数为\(p(x)\),则 \[ \mathbb{E} X=\int_{\mathbb{R}}xp(x)\mathrm{d}x. \]
定义3.3(矩) 设\(X\in L^r(\Omega)\),则\(\mathbb{E} X^r\)为\(X\)的\(r\)阶矩,\(\mathbb{E}(X-\mathbb{E} X)^r\)为\(X\)的\(r\)阶中心矩。特别地,当\(r=2\)时,\(2\)阶中心距即为\(X\)的方差,记作\(\mathrm{Var} X\)。
设\(F_X(x)\)为\(X\)的分布函数,则容易得到计算公式 \[ \mathbb{E} X^r=\int_{\mathbb{R}}x^r\mathrm{d}F_X(x),\quad \mathbb{E}(X-\mathbb{E} X)^r=\int_{\mathbb{R}}(x-\mathbb{E} X)^r\mathrm{d}F_X(x)。 \]
定理3.4(\(C_r\)不等式) 设\(r>0\),定义 \[ C_r=\left\{\begin{aligned} & 2^{r-1},\quad & r\geq 1,\\ & 1,\quad & 0<r<1, \end{aligned}\right. \] 随机变量\(X_1,X_2\in L^r(\Omega)\),则有 \[ \mathbb{E}|X_1+X_2|^r\le C_r(\mathbb{E} |X_1|^r+\mathbb{E} |X_2|^r). \]
定理3.5(Chebyshev不等式) 设\(X\)是随机变量,\(g:[0,+\infty)\to[0,\infty)\)单调递增,若\(g(|X|)\in L_1\),则对任意的\(a>0\),\(g(a)>0\),都有 \[ \mathbb{P}\{|X|\geq a\}\le\dfrac{\mathbb{E} g(|X|)}{g(a)}. \]
若\(X\in L_r\),取\(g(x)=x^r\)得 \[ \mathbb{P}\{|X|\geq x\}\le\dfrac{\mathbb{E}|X|^r}{x^r},\quad\forall x>0; \] 取\(r=2\)得 \[ \mathbb{P}\{|X-\mathbb{E} X|\geq x\}\le\dfrac{\mathrm{Var} X}{x^2}. \]
定义3.6(特征函数) 设\(X\)是概率空间\(\{\Omega,\mathscr{F},\mathbb{P}\}\)上的随机变量,则 \[ f(t)=\mathbb{E}\mathrm{e}^{itX} \] 为\(X\)的特征函数。
命题3.7(特征函数的性质) 设\(f(t)\)是随机变量\(X\)的特征函数。 - \(f(0)=1\); - \(f|(t)|\le 1,\forall t\in\mathbb{R}\); - \(f(t)\)在\(\mathbb{R}\)上一致连续。
命题3.8(特征函数的Taylor展开式) 设\(f(t)\)是随机变量\(X\)的特征函数,\(X\in L_n\),则 \[ f(t)=1+\sum_{k=1}^{n}\dfrac{(it)^k}{k!}\mathbb{E} X^k+o(t^n),\quad t\to 0. \]
命题3.9(特征函数的反演公式) 设\(f(t)\)是分布函数\(F\)的特征函数,则 \[ \overline{F}(b)-\overline{F}(a)=\dfrac{1}{2\pi}\lim_{T\to+\infty}\int_{-T}^{T}\dfrac{\mathrm{e}^{-itb}-\mathrm{e}^{-ita}}{-it}f(t)\mathrm{d}t, \] 其中\(\overline{F}(x)=\dfrac{F(x)+F(x-0)}{2}\)。
设\(X\)是连续型随机变量,密度函数为\(p(x)\),特征函数为\(f(t)\),则 \[ p(x)=\dfrac{1}{2\pi}\int_{-\infty}^{+\infty}\mathrm{e}^{-itx}f(t)\mathrm{d}t, \] 其中积分的计算可以应用复分析中的留数定理。
随机变量的收敛
借助实分析中的收敛模式,还可以讨论随机变量的收敛。设\(\{\Omega,\mathscr{F},\mathbb{P}\}\)是概率空间,\(\{X_n\}\)是随机变量序列,\(X\)是随机变量。
定义4.1(几乎必然收敛) 设\(X_n\to X,\mathrm{a.e.}\),则\(X_n\)几乎必然收敛于\(X\),记作\(X_n\to X,\mathrm{a.s.}\)。
若\(X_n\to X,\mathrm{a.s.}\),则有\(\mathbb{P}\left\{X_n\to X\right\}=1\)。
定义4.2(依概率收敛) 设\(X_n\xrightarrow{\mathbb{P}} X\),则\(X_n\)依概率收敛于\(X\),记作\(X_n\xrightarrow{p}X\)。
若\(X_n\xrightarrow{p}X\),则对任意的\(\varepsilon>0\),有\(\mathbb{P}\{|X_n-X|<\varepsilon\}\to1\)。
定义4.3(平均收敛) 设\(X_n,X\in L^r(\Omega)\),其中\(r>0\),若 \[ \lim_{n\to+\infty}\mathbb{E}|X_n-X|^r=0, \] 则\(X_n\)依\(r\)阶平均收敛于\(X\),记为\(X_n\xrightarrow{L_r}X\)。
定义4.4(依分布收敛) 设\(X_n,X\)对应的分布函数为\(F_n,F,n=1,2,\cdots\),若 \[ F_n(x)\to F(x),\quad\text{对任意的$F(x)$的连续点$x$,} \] 则\(\{F_n\}\)弱收敛到\(F\),记为\(F_n\xrightarrow{w}F\);\(\{X_n\}\)依分布收敛于\(X\),记为\(X_n\xrightarrow{d}X\)。
定义4.5(连续性定理) 设\(X_n,X\)对应的特征函数为\(f_n,f(t),n=1,2,\cdots\),则\(X_n\xrightarrow{d}X\)当且仅当 \[ \lim_{n\to+\infty}f_n(t)=f(t),\quad\forall t\in\mathbb{R}. \]
研究随机变量的收敛时,Levi单调收敛定理和Lebesgue控制收敛定理同样适用。
命题4.6(蕴含关系) 以上几种收敛有如下的蕴含关系: - 若\(X_n\to X,\mathrm{a.s.}\),则\(X_n\xrightarrow{p}X\); - 若\(X_n\xrightarrow{L_r}\),则\(X_n\xrightarrow{p}X\); - 若\(X_n\xrightarrow{p}X\),则\(X_n\xrightarrow{d}X\); - 设\(c\)为常数,则\(X_n\xrightarrow{p}c\)当且仅当\(X_n\xrightarrow{d}c\)。
定理4.7(Slutsky引理) 若\(X_n\xrightarrow{d}X,Y_n\xrightarrow{p}0,W_n\xrightarrow{p}1\),则 \[ W_nX_n+Y_n\xrightarrow{p}X. \]
随机变量的收敛可以用于研究大数律与中心极限定理。在此由于篇幅有限,同时这部分内容不是实分析的重点,便不再提及。