2022年数理统计试题回忆及解答
有一些题目挺有意思的,解答见后半部分。
试题
一、概念表述
- 充分性原则;
- 点估计的有效性和相合性;
- 枢轴量;
- 检验的\(p\)值;
- EM算法的思想。
二、设\(x_1,x_2\sim\mathcal{N}(0,\sigma^2)\),求\(\left(\dfrac{x_1+x_2}{x_1-x_2}\right)^2\)的分布。
三、设\(x_1,x_2,\cdots,x_n\)是来自总体\(f(x)=\theta x^{\theta-1}\cdot I_{\{0<x<1\}}\)的样本。
(1)求\(g(\theta)=\dfrac{1}{\theta}\)的最大似然估计;
(2)求\(g(\theta)=\dfrac{1}{\theta}\)的有效估计;
(3)设\(\theta\)的先验分布是\(\mathrm{Ga}(\alpha,\lambda)\),求\(\theta\)的Bayes估计。
四、设\(x_1,x_2,\cdots,x_{n_1}\)是来自总体\(\mathcal{N}(\mu_1,\sigma_1^2)\)的样本,\(y_1,y_2,\cdots,y_{n_2}\)是来自总体\(\mathcal{N}(\mu_2,\sigma^2)\)的样本,已知\(n_1,n_2,\bar{x},s_x^2,\bar{y},s_y^2\)。
(1)若已知\(\sigma_1^2=\sigma_2^2\),求\(\mu_1-\mu_2\)的置信水平为\(1-\alpha\)的置信区间;
(2)求\(\dfrac{\sigma_1^2}{\sigma_2^2}\)的置信水平为\(1-\alpha\)的置信区间。
五、设正态总体\(\mathcal{N}(\mu,\sigma^2)\),考虑检验问题 \[ H_0:\mu=15\quad\mathrm{v.s.}\quad H_1:\mu<15, \] 若\(\sigma^2=2.5\),检验的显著性水平\(\alpha=0.05\),且在\(\mu<13\)的条件下,犯第二类错误的概率小于\(0.05\),样本的容量至少有多大?(\(u_{0.05}=-1.65\))
六、设\(x_1,x_2,\cdots,x_n\sim\mathrm{Exp}(\lambda_1)\),\(y_1,y_2,\cdots,y_m\sim\mathrm{Exp}(\lambda_2)\),考虑检验问题 \[ H_0:\lambda_1=\lambda_2\quad\mathrm{v.s.}\quad H_1:\lambda_1\ne\lambda_2. \] (1)写出该检验问题的似然比检验;
(2)说明似然比检验的拒绝域只与\(\dfrac{x_1+x_2+\cdots+x_n}{y_1+y_2+\cdots+y_m}\)有关;
(3)若\(H_0\)成立,求\(\dfrac{x_1+x_2+\cdots+x_n}{y_1+y_2+\cdots+y_m}\)的分布。
七、简述正态性检验的方法。
解答
一、见课本。
二、由\(x_1,x_2\sim\mathcal{N}(0,\sigma^2)\),知\(x_1+x_2,x_1-x_2\sim\mathcal{N}(0,\sigma^2)\),从而\(\dfrac{x_1+x_2}{\sigma},\dfrac{x_1-x_2}{\sigma}\sim\mathcal{N}(0,1)\)。且根据正态分布的性质,知它们之间相互独立。从而 \[ \left(\dfrac{x_1+x_2}{x_1-x_2}\right)^2=\left.\left(\dfrac{x_1+x_2}{\sigma}\right)^2\middle/\left(\dfrac{x_1-x_2}{\sigma}\right)^2\right.\sim F(1,1). \]
三、(1)设\(0<x_{(1)}<x_{(n)}<1\),写出似然函数 \[ \begin{aligned} L(x_1,x_2,\cdots,x_n;\theta)&=\theta^{n}\cdot(x_1x_2\cdots x_n)^{\theta-1},\\ \ln L(x_1,x_2,\cdots,x_n;\theta)&=n\ln \theta+(\theta-1)\cdot\sum_{i=1}^{n}\ln x_i. \end{aligned} \] 对对数似然函数求导,并令其为零,得 \[ \dfrac{n}{\theta}+\sum_{i=1}^{n}\ln x_i=0\implies\hat{g}(\theta)=-\dfrac{1}{n}\sum_{i=1}^{n}\ln x_i. \] (2)计算得Fisher信息量 \[ I(\theta)=-\mathbb{E}\left[\dfrac{\partial^2}{\partial\theta^2}\ln p(x;\theta)\right]=\dfrac{1}{\theta^2}, \] 从而C-R下界为\(\dfrac{[g'(\theta)]^2}{n\cdot I(\theta)}=\dfrac{1}{n\theta^2}\),以下说明(1)中的最大似然估计为有效估计,分为三步进行。
首先,记\(y=-\ln x\),则\(x=\mathrm{e}^{-y}\),\(\mathrm{d}x=-\mathrm{e}^{-y}\mathrm{d}y\),代入密度函数得 \[ q(y)=\theta\cdot\mathrm{e}^{-(\theta-1)y}\cdot\mathrm{e}^{-y}=\theta\cdot\mathrm{e}^{-\theta y}, \] 其为\(\mathrm{Exp}(\theta)\)的密度函数,从而\(y_1,y_2,\cdots,y_n\sim\mathrm{Exp}(\theta)\);
接下来,考虑\(\bar{y}\)的分布,由\(\mathrm{Exp}(\theta)=\mathrm{Ga}(1,\theta)\),得\(y_1+y_2+\cdots+y_n\sim\mathrm{Ga}(n,\theta)\),从而 \[ \bar{y}=\dfrac{1}{n}\sum_{i=1}^{n}x_i\sim\mathrm{Ga}(n,n\theta); \]
最后,根据Gamma分布的性质,计算得\(\mathrm{Var}\hat{g}(\theta)=\mathrm{Var}\bar{y}=\dfrac{n}{(n\theta)^2}=\dfrac{1}{n\theta^2}\),这说明了\(\hat{g}(\theta)\)达到了C-R下界,从而\(\hat{g}(\theta)\)是有效估计。
(3)此时先验分布\(\pi(\theta)=\dfrac{\lambda^{\alpha}}{\Gamma(\alpha)}\cdot\theta^{\alpha-1}\mathrm{e}^{-\lambda \theta}\),计算得后验分布 \[ \begin{aligned} \pi(\theta|x_1,x_2,\cdots,x_n)&=\dfrac{p(x_1,x_2,\cdots,x_n|\theta)\pi(\theta)}{\displaystyle\int_{\Theta}p(x_1,x_2,\cdots,x_n|\theta)\pi(\theta)\mathrm{d}\theta}\\ &=\dfrac{\left(\lambda-\sum_{i=1}^{n}\ln x_i\right)^{n+\alpha}}{\Gamma(n+\alpha)}\cdot\theta^{n+\alpha-1}\mathrm{e}^{-\left(\lambda-\sum_{i=1}^{n}\ln x_i\right)\theta}, \end{aligned} \] 从而\(\theta\)的后验分布为\(\mathrm{Ga}(n+\alpha,\lambda-\sum_{i=1}^{n}\ln x_i)\),据此计算得期望 \[ \hat{\theta}_B=\dfrac{n+\alpha}{\lambda-\sum_{i=1}^{n}\ln x_i}. \]
四、(1)构造枢轴量 \[ t=\dfrac{(\bar{x}-\bar{y})-(\mu_1-\mu_2)}{s_w\cdot\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim t(n_1+n_2-2),\quad s_w=\dfrac{(n_1-1)\cdot s_x^2+(n_2-1)\cdot s_y^2}{n_1+n_2-2}, \] 所求的置信区间为 \[ \left[\bar{x}-\bar{y}\mp s_w\cdot\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}\cdot t_{1-\frac{\alpha}{2}}(n_1+n_2-2)\right]. \] (2)构造枢轴量 \[ F=\dfrac{\sigma_2^2\cdot s_x^2}{\sigma_1^2\cdot s_y^2}\sim F(n_1-1,n_2-1), \] 所求的置信区间为 \[ \left[\dfrac{s_x^2}{s_y^2}\cdot\dfrac{1}{F_{1-\frac{\alpha}{2}}(n_1-1,n_2-1)},\dfrac{s_x^2}{s_y^2}\cdot\dfrac{1}{F_{\frac{\alpha}{2}}(n_1-1,n_2-1)}\right]. \]
五、设\(x_1,x_2,\cdots,x_n\)是来自总体\(\mathcal{N}(\mu,\sigma^2)\)的样本,记\(\mu_0=15\),构造检验统计量 \[ u=\dfrac{\sqrt{n}\cdot(\bar{x}-\mu_0)}{\sigma}, \] 则检验的拒绝域\(W=\{u\le u_{0.05}\}\)。犯第二类错误时,\(H_1\)为真,且\((x_1,x_2,\cdots,x_n)\in\bar{W}\),计算得犯第二类错误的概率 \[ \begin{aligned} \mathbb{P}(u>u_{0.05})&=\mathbb{P}\left(\dfrac{\sqrt{n}\cdot (\bar{x}-\mu)}{\sigma}>u_{0.05}+\dfrac{\sqrt{n}\cdot(\mu_0-\mu)}{\sigma}\right)\\ &=1-\Phi\left(u_{0.05}+\dfrac{\sqrt{n}\cdot(\mu_0-\mu)}{\sigma}\right)\\ &=\Phi\left(\dfrac{\sqrt{n}\cdot(\mu-\mu_0)}{\sigma}-u_{0.05}\right), \end{aligned} \] 其中\(\dfrac{\sqrt{n}\cdot (\bar{x}-\mu)}{\sigma}\sim\mathcal{N}(0,1)\),要让犯第二类错误的概率小于\(0.05\),则 \[ \dfrac{\sqrt{n}\cdot(\mu-\mu_0)}{\sigma}-u_{0.05}<u_{0.05}\implies n>\left(\dfrac{2u_{0.05}\cdot\sigma}{\mu-\mu_0}\right)^2>6.8, \] 从而样本的容量至少为\(7\)。
六、(1)记\(\theta=(\lambda_1,\lambda_2)\),\(\Theta=\{(\lambda_1,\lambda_2):\lambda_1,\lambda_2>0\}\),\(\Theta_1=\{(\lambda_1,\lambda_2):\lambda_1=\lambda_2>0\}\),可以求出\(\theta\)在\(\Theta\)上的极大似然估计 \[ \hat{\theta}=(\hat{\lambda}_1,\hat{\lambda}_2)=\left(\dfrac{n}{x_1+\cdots+x_n},\dfrac{m}{y_1+\cdots+y_m}\right), \] 以及令\(\lambda_1=\lambda_2\),进一步求出\(\theta\)在\(\Theta_0\)上的极大似然估计 \[ \hat{\theta}'=(\hat{\lambda}_0,\hat{\lambda}_0)=\left(\dfrac{n+m}{x_1+\cdots+x_n+y_1+\cdots+y_m},\dfrac{n+m}{x_1+\cdots+x_n+y_1+\cdots+y_m}\right). \] 原检验问题的似然比 \[ \begin{aligned} \varLambda(x_1,\cdots,x_n,y_1,\cdots,y_m;\theta)&=\dfrac{p(x_1,\cdots,x_n,y_1,\cdots,y_m;\hat{\theta})}{p(x_1,\cdots,x_n,y_1,\cdots,y_m;\hat{\theta}')}\\ &=\dfrac{n^n\cdot m^m}{(n+m)^{n+m}}\cdot\dfrac{(x_1+\cdots+x_n+y_1+\cdots+y_m)^{n+m}}{(x_1+\cdots+x_n)^n\cdot (y_1+\cdots+y_m)^m}, \end{aligned} \] 对似然比进行检验即为似然比检验。
(2)记\(S=x_1+\cdots+x_n\),\(T=y_1+\cdots+y_m\),整理得 \[ \varLambda=\dfrac{n^n\cdot m^m}{(n+m)^{n+m}}\cdot \left(\dfrac{S}{T}\right)^{-n}\cdot\left(1+\dfrac{S}{T}\right)^{m+n}. \] 为了进一步求出拒绝域,令\(f(x)=x^{-n}(1+x)^{m+n}\),\(g(x)=\ln f(x)=-n\ln x+(m+n)\ln (1+x)\),则\(f\)和\(g\)的单调性相同,对\(g\)求导得 \[ g'(x)=-\dfrac{n}{x}+\dfrac{m+n}{1+x}=\dfrac{mx-n}{x(1+x)}, \] 从而\(g\)和\(f\)在\(\left(0,\dfrac{n}{m}\right)\)单调递减,在\(\left(\dfrac{n}{m},+\infty\right)\)单调递增。令\(f\le c_0\),可以解得\(c_1\le x\le c_2\),从而拒绝域形如 \[ \{\varLambda\le\varLambda_0\}=\left\{\dfrac{(n+m)^{n+m}}{n^n\cdot m^m}\cdot c_1\le \dfrac{S}{T}\le\dfrac{(n+m)^{n+m}}{n^n\cdot m^m}\cdot c_2\right\}, \] 这便说明了拒绝域仅与\(\dfrac{S}{T}=\dfrac{x_1+\cdots+x_n}{y_1+\cdots+y_m}\)有关。
(3)当\(\lambda_1=\lambda_2=\lambda\)时,有\(S=x_1+\cdots+x_n\sim\mathrm{Ga}(n,\lambda)\),\(T=y_1+\cdots+y_m\sim\mathrm{Ga}(m,\lambda)\)。则\(S\)和\(T\)的概率密度分别为 \[ f_1(s)=\dfrac{\lambda^n}{\Gamma(n)}\cdot s^{n-1}\mathrm{e}^{-\lambda s},\quad f_2(t)=\dfrac{\lambda^m}{\Gamma(m)}\cdot t^{m-1}\mathrm{e}^{-\lambda t}. \] 令\(Z=\dfrac{S}{T}=\dfrac{x_1+x_2+\cdots+x_n}{y_1+y_2+\cdots+y_m}\),则\(Z\)的概率密度 \[ g(z)=\int_{0}^{\infty}tf_1(zt)f_2(t)\mathrm{d}t=\dfrac{1}{\mathrm{B}(n,m)}\cdot\dfrac{z^{n-1}}{(z+1)^{n+m}}. \]
七、(1)正态概率纸:将点\(\left(x_{(i)},\dfrac{i-0.375}{n+0.25}\right)\)绘制在正态概率纸上,如果点在一条直线附近,则认为该批数据来自正态分布总体,否则认为不是来自正态分布总体。
(2)Shapiro-Wilk检验:取检验统计量 \[ W=\dfrac{\displaystyle\left[\sum_{i=1}^{n}(a_i-\bar{a})(x_{(i)}-\bar{x})\right]^2}{\displaystyle\sum_{i=1}^{n}(a_i-\bar{a})^2\cdot\sum_{i=1}^{n}(x_{(i)}-\bar{x})^2}, \] 其中\(a_1,a_2,\cdots,a_n\)是与\(n\)有关的常数。若检验的显著性水平为\(\alpha\),则拒绝域\(W=\{W\le W_{\alpha}\}\)。
(3)Epps-Pulley检验:当\(n\geq 8\)时,取检验统计量 \[ T_{\mathrm{EP}}=1+\dfrac{n}{\sqrt{3}}+\dfrac{2}{n}\sum_{i=2}^{n}\sum_{j=1}^{i-1}\exp\left\{-\dfrac{(x_j-x_i)^2}{2s_n^2}\right\}-\sqrt{2}\cdot\sum_{i=1}^{n}\exp\left\{-\dfrac{(x_i-\bar{x})^2}{4s_n^2}\right\}, \] 若检验的显著性水平为\(\alpha\),则拒绝域\(W=\{T_{\mathrm{EP}}\geq\mathrm{T}_{1-\alpha,\mathrm{EP}}(n)\}\)。