本文将给出测度论意义下的条件期望与条件概率的定义,并举一些简单的例子。

条件期望与条件概率的定义

\((\Omega,\mathscr{F},\mathbb{P})\)为概率空间,条件期望首先是对于\(\mathscr{F}\)的子\(\sigma\)-域而言的。


定义1(子\(\sigma\)-域)\(\mathscr{G}\subset\mathscr{F}\)\(\sigma\)-域,则称\(\mathscr{G}\)\(\mathscr{F}\)\(\sigma\)-域


\(X\in\mathscr{L}^1(\Omega)\)是概率空间\((\Omega,\mathscr{F},\mathbb{P})\)上的随机变量,定义 \[ \varphi(C):=\int_CX\mathrm{d}\mathbb{P},\quad\forall C\in\mathscr{G}, \]\(\varphi\)\(\mathscr{G}\)上的符号测度,且根据 \[ \mathbb{P}(C)=0\implies \varphi(C)=\int_CX\mathrm{d}\mathbb{P}=0 \] 得知\(\varphi\ll\mathbb{P}\),从而由Radon-Nikodym定理知,存在概率空间\((\Omega,\mathscr{G},\mathbb{P})\)上的随机变量\(Y\in\mathscr{L}^1(\Omega)\),使得 \[ \varphi(C)=\int_CX\mathrm{d}\mathbb{P}=\int_CY\mathrm{d}\mathbb{P},\quad\forall C\in\mathscr{G}. \] 需要注意的是,上式中\(X\)\((\Omega,\mathscr{F},\mathbb{P})\)上的随机变量,而\(Y\)\((\Omega,\mathscr{G},\mathbb{P})\)上的随机变量。据此,条件期望可以得到定义:


定义2(条件期望)\(\mathscr{G}\subset\mathscr{F}\)是子\(\sigma\)-域,\(X\in\mathscr{L}^1(\Omega)\)是概率空间\((\Omega,\mathscr{F},\mathbb{P})\)上的随机变量,\(\mathbb{E}(X|\mathscr{G})\in\mathscr{L}^1(\Omega)\)是概率空间\((\Omega,\mathscr{G},\mathbb{P})\)上的随机变量,且满足 \[ \int_CX\mathrm{d}\mathbb{P}=\int_C\mathbb{E}(X|\mathscr{G})\mathrm{d}\mathbb{P},\quad\forall C\in\mathscr{G}, \] 则称\(\mathbb{E}(X|\mathscr{G})\)\(X\)关于子\(\sigma\)-域\(\mathscr{G}\)条件期望


在初等概率论中,设\(A\in\mathscr{F}\)\(I_A\)\(A\)的示性函数,则\(\mathbb{E} I_A=\mathbb{P}(A)\)。受此启发,可以定义条件概率:


定义3(条件概率)\(\mathscr{G}\subset\mathscr{F}\)是子\(\sigma\)-域,\(A\in\mathscr{F}\),称\(\mathbb{P}(A|\mathscr{G})=\mathbb{E}(I_A|\mathscr{G})\)\(A\)关于子\(\sigma\)-域\(\mathscr{G}\)条件概率


需要注意,条件概率实际上也是随机变量。

简单的例子

为了加强对条件概率与条件期望的定义的理解,在这里考虑一些简单的例子。


例4\(B\in\mathscr{F}\)\(\mathscr{G}=\sigma(B)=\{\varnothing,B,B^C,\Omega\}\),且\(\mathbb{P}(B)\notin\{0,1\}\)。设\(A\in\mathscr{G}\),则\(\mathbb{P}(A|\mathscr{G})\)\(\mathscr{G}\)上的可测函数,从而 \[ \mathbb{P}(A|\mathscr{G})=a I_B+b I_{B^C}; \] 另外,根据定义得 \[ \int_C\mathbb{P}(A|\mathscr{G})\mathrm{d}\mathbb{P}=\int_C I_A\mathrm{d}\mathbb{P}=\mathbb{P}(AC), \]\(C=B\)\(a=\dfrac{\mathbb{P}(AB)}{\mathbb{P}(B)}=\mathbb{P}(A|B)\),取\(C=B^C\)\(b=\dfrac{\mathbb{P}(AB^C)}{\mathbb{P}(B^C)}=\mathbb{P}(A|B^C)\),从而 \[ \mathbb{P}(A|\mathscr{G})=\mathbb{P}(A|B)\cdot I_B+\mathbb{P}(A|B^C)\cdot I_{B^C}. \]


例5\(B_1,B_2,\cdots,B_m\in\mathscr{F}\)互不相交,且\(B_1\cup B_2\cup\cdots\cup B_m=\Omega\)\(\mathscr{G}=\sigma(B_1,B_2,\cdots,B_m)\)。设\(A\in\mathscr{F}\),类似例4,可以求出 \[ \mathbb{P}(A|\mathscr{G})=\sum_{j=1}^{m}\mathbb{P}(A|B_j)\cdot I_{B_j}. \]


对于例5的结果,如果\(\omega\in B_j\),也即给定条件\(B_j\),则 \[ \mathbb{P}(A|\mathscr{G})(\omega)=\mathbb{P}(A|B_j), \] 右边是在条件\(B_j\)下,事件\(A\)发生的概率,这说明了抽象定义的合理性。


例6\(A_1,A_2,\cdots,A_n\in\mathscr{F}\)互不相关,且\(A_1\cup A_2\cup\cdots\cup A_n=\Omega\),令 \[ X=\sum_{i=1}^{n}a_i\cdot I_{A_i}, \] 再设\(B_1,B_2,\cdots,B_m\in\mathscr{F}\)互不相交,且\(B_1\cup B_2\cup\cdots\cup B_m=\Omega\)\(\mathscr{G}=\sigma(B_1,B_2,\cdots,B_m)\),类似例4,可以求出 \[ \mathbb{E}(X|\mathscr{G})=\sum_{j=1}^{m}\sum_{i=1}^{n}a_i\cdot\mathbb{P}(A_i|B_j)\cdot I_{B_j.} \]


例6的结果非常有趣。如果\(\omega\in B_j\),也即给定条件\(B_j\),我们知道 \[ \mathbb{E}(X|\mathscr{G})(\omega)=\sum_{i=1}^{n}a_i\cdot\mathbb{P}(A_i|B_j), \] 这事实上是将样本空间作划分\(\Omega=A_1\cup A_2\cup\cdots\cup A_n\),随机变量\(X\)在第\(i\)个集合\(A_i\)上的取值为\(a_i\),而\(\mathbb{P}(A_i|B_j)\)是在条件\(B_j\)下,事件\(A_i\)发生的概率,它们相乘求和,就得到了初等概率论中定义的条件期望。