概率论与数理统计笔记

随机事件和概率

随机实验(简称实验)得到样本点,样本点的集合构成事件,一个样本点构成基本事件,所有的样本点组成样本空间Ω\Omega

样本空间可以是不可数的,此时P(A)=0不意味着A为空集

因为事件是集合,集合的运算也对事件成立。有集合论和概率论的概念对照表。

概率论 集合论
样本空间,必然事件 全集
不可能事件 空集
样本点,基本事件 元素
事件 子集
A的对立事件 补集
A发生,则B发生 A是B的子集
AB至少有一个发生 A与B的合集
AB同时发生 A与B的交集
A发生,B不发生 A与B的差集
事件A与B不相容 A与B无公共元素

将多次实验得到AA的频率称为统计概率P(A),有如下性质。

  • 非负性 0P(A)10\le P(A)\le 1
  • 规范性 P(Ω)=1P(\Omega)=1
  • 可加性 若AB=AB=\empty,则P(AB)=P(A)+P(B)P(A\cup B)=P(A)+P(B)

如果样本空间可数,同时基本事件发生概率相等,称这种随机实验为古典型实验。此数学模型称为古典概型,也叫等可能概型。

如果所有样本点都是某可测度的空间上的点,且空间任一区域的概率和该区域的测度成正比,与区域的形状无关,称这种随机实验为几何型实验,其概率称为几何概率

数学上概率定义为满足下列性质的事件对实数的函数PP

  • 非负性 0P(A)10\le P(A)\le 1
  • 规范性 P(Ω)=1P(\Omega)=1
  • 可列可加性 若所有AiA_i不相容,则P(i=0+Ai)=P(A)+P(B)P(\bigcup_{i=0}^{+\infty} A_i)=P(A)+P(B)
  • 有限可加性 若所有AiA_i不相容,则P(i=0nAi)=P(A)+P(B)P(\bigcup_{i=0}^{n} A_i)=P(A)+P(B)

定义条件概率,含义为一次随机实验中已知A发生情况下,B发生的概率。

P(BA)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}

定义分割,如果Ai=Ω\bigcup A_i=\Omega,且所有AiA_i都不相容,称AiA_i构成了Ω\Omega的一个分割

对于分割AiA_i,事件BB全概率公式(顺着因果链)

P(B)=P(Ai)P(BAi)P(B)=\sum P(A_i)P(B|A_i)

对于分割AiA_i,事件BB贝叶斯公式(倒着因果链)

P(AiB)=P(BAi)P(Ai)P(B)=P(BAi)P(Ai)P(Ai)P(BAi)P(A_i|B)=\frac{P(B|A_i)P(A_i)}{P(B)}=\frac{P(B|A_i)P(A_i)}{\sum P(A_i)P(B|A_i)}

事件A,BA,B互相独立当且仅当P(AB)=P(A)P(B)P(AB)=P(A)P(B)

事件AiA_i互相独立当且仅当对于任意两个AiA_iAjA_j,其互相独立。

伯努利概型Ω={A,Aˉ}\Omega=\{A,\bar A\}

随机变量及其分布

定义随机变量为样本点到实数的单射函数。通常用X(w),Y(w),Z(w)X(w),Y(w),Z(w)表示。

离散型随机变量

对于离散型随机变量定义随机变量的密度函数fX(x)=P{X=x}f_X(x)=P\{X=x\}

两点分布

XB(1,p)P{X=1}=p,P{X=1}=q (0p1,q=1p)X\sim B(1,p) \\ P\{X=1\}=p,P\{X=1\}=q\space(0\le p\le 1,q=1-p)

二项分布

XB(n,p)P{X=k}=Cnkpkqnk, k=0,1,2,,n(0<p<1.q=1p)X\sim B(n,p)\\ P\{X=k\}=C_n^kp^kq^{n-k},\space k=0,1,2,\dots,n(0<p<1.q=1-p)

泊松分布

XP(λ)P{X=k}=λkk!eλ, k=0,1,2,(λ>0)X\sim P(\lambda)\\ P\{X=k\}=\frac{\lambda^k}{k!}e^{-\lambda},\space k=0,1,2,\dots(\lambda>0)

X=B(n,p)X=B(n,p)n20,p0.05n\ge20,p\le0.05P{X=k}P{P(np)=k}P\{X=k\}\approx P\{P(np)=k\}

定义分布函数F(x)=P{Xx}=xf(x)dxF(x)=P\{X\le x\}=\int_{-\infty}^xf(x)d x,有如下性质

  • 单调性
  • 非负有界性 0F(x)10\le F(x)\le 1
  • 右连续
  • F()=0;F(+)=1F(-\infty)=0;F(+\infty)=1

连续形随机变量

对于连续型随机变量定义随机变量的密度函数F(x)F(x),满足F(x)=xf(u)duF(x)=\int_{-\infty}^xf(u)du,有以下性质

  • fX(x)=FX(x)f_X(x)=F_X'(x)
均匀分布

XU[a,b]f(x)={1ba,axb,0,others.X\sim U[a,b] \\f(x)=\begin{cases} \frac{1}{b-a},&a\le x\le b,\\ 0,&others. \end{cases}

指数分布

XE(λ)(λ>0)f(x)={λeλx,x0,0,others.X\sim E(\lambda)(\lambda>0) \\f(x)=\begin{cases} \lambda e^{-\lambda x},&x\ge 0,\\ 0,&others. \end{cases}

正态分布

XN(μ,σ2)f(x)=12πσe(xμ)22σ2X\sim N(\mu,\sigma^2) \\f(x)=\frac{1}{\sqrt{2\pi} \sigma}e^\frac{-(x-\mu)^2}{2\sigma^2}

离散型随机变量函数的分布可以使用以下方法求出(设函数gg单调)

FY(y)=P{Yy}=P{g(X)y}=P{Xg1(y)}=ag1(y)fX(x)dxfY(y)=FY(y)=fX(g1(y))[˙g1(y)]\begin{aligned} & F_Y(y)=P\{Y\le y\}=P\{g(X)\le y\}=P\{X\le g^-1(y)\}=\int_a^{g^{-1}(y)}f_X(x)dx\\ & f_Y(y)=F_Y'(y)=f_X(g^{-1}(y))\dot [g^{-1}(y)]' \end{aligned}

多维随机变量及其分布

X(w)Y(w)X(w)、Y(w)是定义在Ω\Omega上的两个随机变量,其整体(X(w),Y(w))(X(w),Y(w))称为二位随机变量。二维随机变量实际上是Ω\OmegaR2\R^2的单射。

类似的,定义分布函数F(x,y)=P{Xx,Yy}F(x,y)=P\{X\le x,Y\le y\},有以下性质

  • 分别对xxyy单调
  • 非负性 0F(x,y)10\le F(x,y)\le 1
  • F(x,)=F(,y)=F(,)=0F(x,-\infty)=F(-\infty,y)=F(-\infty,-\infty)=0
  • F(+,+)=0F(+\infty,+\infty)=0
  • 二维差分非负性F(x2,y2)F(x2,y1)F(x1,y2)+F(x1,y1)0,x1<x2,y1<y2F(x_2,y_2)-F(x_2,y_1)-F(x_1,y_2)+F(x_1,y_1)\ge 0,x1<x2,y1<y2

定义二位随机变量关于XX的边缘分布函数FX(x)=P{Xx}=P{Xx,y<+}F_X(x)=P\{X\le x\}=P\{X\le x,y<+\infty\},对于Y类似

称随机变量X,YX,Y相互独立当且仅当x,y, F(x,y)=FX(x)FY(y)\forall x,\forall y,\space F(x,y)=F_X(x)\cdot F_Y(y)成立

定义二维离散型随机变量条件分布P{X=xiY=yi}=P{X=xi,Y=yi}P{Y=yi}P\{X=x_i|Y=y_i\}=\frac{P\{X=x_i,Y=y_i\}}{P\{Y=y_i\}}

定义二维连续型随机变量条件分布fYX(yx)=f(x,y)fX(x)f_{Y|X}(y|x)=\frac{f(x,y)}{f_X(x)}

定义二维连续型随机变量的密度函数f(x,y)f(x,y),满足F(x,y)=yxf(u,v)dudvF(x,y)=\int_{-\infty}^y\int_{-\infty}^xf(u,v)dudv。有以下性质

  • 2F(x,y)xy=f(x,y)\frac{\partial^2F(x,y)}{\partial x\partial y}=f(x,y)
  • P{(X,Y)G}=Gf(x,y)dxdyP\{(X,Y)\in G\}=\iint_Gf(x,y)dxdy

多维随机变量函数的分布同样可以使用离散型随机变量函数的分布方法求出。

随机变量的数字特征

E(X)=xipiE(X)=xf(x)dxE(g(X0,,Xi))=g(x0,,xi)f(x0,,xi)D(X)=E((XE(X))2)D(X)=(xE(X))2f(x)dxD(X)=E(X2)E(X)2σ(X)=D(X)cov(X,Y)=E((XE(X))(YE(Y)))=E(XY)E(X)E(Y)X=XE(X)D(X)ρ(X,Y)=cov(X,Y)D(X)D(Y)\begin{aligned} & E(X)=\sum x_ip_i\\ & E(X)=\int xf(x)dx\\ & E(g(X_0,\dots,X_i))=\sum g(x_0,\dots,x_i)f(x_0,\dots,x_i)\\ & D(X)=E((X-E(X))^2) \\ & D(X)=\int (x-E(X))^2f(x)dx \\ & D(X)=E(X^2)-E(X)^2\\ & \sigma(X)=\sqrt{D(X)}\\ & cov(X,Y)=E((X-E(X))(Y-E(Y)))=E(XY)-E(X)E(Y)\\ & X^*=\frac{X-E(X)}{\sqrt{D(X)}}\\ & \rho(X,Y)=\frac{cov(X,Y)}{\sqrt{D(X)}\sqrt{D(Y)}} \end{aligned}

期望有线性性质(可加性,齐次性);

常用分布的数学期望和方差

两点分布/二项分布XB(n,p)X\sim B(n,p)

E(X)=npE(X)=np

D(X)=np(1p)D(X)=np(1-p)

泊松分布XP(λ)X\sim P(\lambda)

E(X)=λE(X)=\lambda

D(X)=λD(X)=\lambda

均匀分布XU[a,b]X\sim U[a,b]

E(X)=a+b2E(X)=\frac{a+b}{2}

D(X)=(ba)212D(X)=\frac{(b-a)^2}{12}

指数分布XE(λ)X\sim E(\lambda)

E(X)=1λE(X)=\frac 1\lambda

D(X)=1λ2D(X)=\frac 1 {\lambda^2}

正态分布XN(μ,σ2)X\sim N(\mu,\sigma^2)

E(X)=μE(X)=\mu

D(X)=σ2D(X)=\sigma^2

下文中X,YX,Y均为随机变量。

XXkk阶原点矩,也称kk阶矩E(Xk)E(X^k)

XXkk阶中心矩E((XE(X))k)E((X-E(X))^k)

X,YX,Yk+lk+l阶混合矩E(XkYl)E(X^kY^l)

X,YX,Yk+lk+l阶混合中心矩E((XE(X))k(YE(Y))l)E((X-E(X))^k(Y-E(Y))^l)

E(X)E(X)XX的一阶中心矩;D(X)D(X)XX的二阶中心矩;cov(X,Y)cov(X,Y)XXYY的二阶混合中心矩

定义CijC_{ij}XiX_iXjX_j的二阶混合中心矩,称下面的矩阵为(X1,X2,,Xn)(X_1,X_2,\dots,X_n)的协方差矩阵

[C11C12C1nC21C22C2nCn1Cn2Cnn]\begin{bmatrix} C_{11} & C_{12} & \dots & C_{1n} \\ C_{21} & C_{22} & \dots & C_{2n} \\ \vdots & \vdots && \vdots \\ C_{n1} & C_{n2} & \dots & C_{nn} \end{bmatrix}

数理统计的基本概念

研究对象的全体称为总体XX​,总体的一部分个体称为样本(X1,X2,,Xn)(X_1,X_2,\dots,X_n)​。定义统计量g(X1,X2,,Xn)g(X_1,X_2,\dots,X_n)​为样本为参数的函数,统计量也是个随机变量。对于样本类似的定义以下统计量。

样本平均值X=1ni=1nXi\overline{X}=\frac1n\sum_{i=1}^nX_i

样本方差S2=1n1(XiX)2=1n1(Xi2nX2)S^2=\frac1{n-1}\sum(X_i-\overline X)^2=\frac1{n-1}(\sum X_i^2-n\overline{X}^2)

样本标准差S=S2S=\sqrt{S^2}

样本k阶(原点)矩Ak=1nXikA_k=\frac1n\sum X_i^k

样本k阶中心矩Bk=1n(XiX)kB_k=\frac1n\sum (X_i-\overline X)^k

样本协方差SXY=1n1(XiX)(YiY)S_{XY}=\frac1{n-1}\sum(X_i-\overline X)(Y_i-\overline Y)

样本相关系数R=SXYSXSYR=\frac{S_{XY}}{S_X\cdot S_Y}

对于XN(μ,σ2)X\sim N(\mu,\sigma^2)的总体,有以下数理统计基本定理

  • XN(μ,σ2n)\overline X\sim N(\mu,\frac {\sigma^2}n)
  • X\overline XS2S^2独立
  • (n1)S2σ2χ2(n1)\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(n-1)

参数估计

设总体XN(μ,σ2)X\sim N(\mu,\sigma^2)(X1,X2,,Xn)(X_1,X_2,\dots,X_n)是取自XX的样本,用样本值(x1,x2,,xn)(x_1,x_2,\dots,x_n)估计μ\muσ2\sigma^2就是参数估计问题

点估计

点估计即把总体的未知参数估计作为某个确定的值或在某个确定的点上,也叫定值估计。

即对于分布函数F(x,θ1,θ2,,θn)F(x,\theta_1,\theta_2,\dots,\theta_n)θ\theta为参数),求θ\theta的一个确定值。

θ^i(X1,X2,,Xn)\hat\theta_i(X_1,X_2,\dots,X_n)为某种方法得到θi\theta_i的统计量。

矩估计

已知总体XXkk阶矩μk=gk(θ1,θ2,,θn)\mu_k=g_k(\theta_1,\theta_2,\dots,\theta_n),函数gg已知。

则令k=1nk=1\dots n联立求解即可知所有的θi\theta_i

极大似然估计

极大似然估计即求出所有的θi\theta_i,令样本出现的概率最大,似然函数L(θ1,θ2,,θn)L(\theta_1,\theta_2,\dots,\theta_n)评估了样本出现的概率。

对于离散型总体,L(θ)=p(xi,θ1,θ2,,θn)L(\theta)=\prod p(x_i,\theta_1,\theta_2,\dots,\theta_n)

对于连续型总体,L(θ)=f(xi,θ1,θ2,,θn)L(\theta)=\prod f(x_i,\theta_1,\theta_2,\dots,\theta_n)

令函数LL所有方向导数等于0即可求解所有的θi\theta_i

估计量的评估

下文中θ^i\hat\theta_i指某种方法得到的估计量,是关于随机变量样本的函数,θ\theta指真值。

θ^\hat\theta无偏估计量当且仅当E(θ^)=θE(\hat\theta)=\theta。(无偏性)

D(θ^1)<D(θ^2)D(\hat\theta_1)<D(\hat\theta_2),称θ^1\hat\theta_1θ^2\hat\theta_2有效。(有效性)

θ^[n]\hat\theta[n]为样本容量为nn下得到的估计量,如果对于任意ε>0\varepsilon>0,都有

limn+P{θ^nθ<ε}=1\lim_{n\rarr+\infty} P\{\hat\theta_n-\theta<\varepsilon\}=1

θ^\hat\thetaθ\theta一致估计量。(一致性)

区间估计

点估计只能得到一个估计值,我们需要知道估计值的可信度。

如果对于给定的概率1α1-\alpha,有

P{θ^1<θ<θ^2}=1αP\{\hat\theta_1<\theta<\hat\theta_2\}=1-\alpha

称随机区间(θ^1,θ^2)(\hat\theta_1,\hat\theta_2)为参数θ\theta置信区间θ^1\hat\theta_1称为置信下限θ^2\hat\theta_2称为置信上限1α1-\alpha称为置信概率置信度α\alpha一般取值0.050.05

对于正态分布的总体,根据XN(μ,σ2n)\overline X\sim N(\mu,\frac {\sigma^2}n),置信水平1α1-\alpha有以下关于总体两个参数的置信区间。

参数μ\mu的置信区间

  1. σ2\sigma^2已知 (Xzα2σn,X+zα2σn)(\overline X -z_\frac\alpha2 \frac{\sigma}{\sqrt{n}},\overline X +z_\frac\alpha2 \frac{\sigma}{\sqrt{n}})
  2. σ2\sigma^2未知 (XS0n1tα2(n1),X+S0n1tα2(n1)(\overline X -\frac{S_0}{\sqrt{n-1}}t_\frac\alpha2(n-1),\overline X +\frac{S_0}{\sqrt{n-1}}t_\frac\alpha2(n-1)

参数σ2\sigma^2置信区间

  1. ((n1)S2χα22(n1),(n1)S2χ1α22(n1))(\frac{(n-1)S^2}{\chi^2_\frac \alpha 2(n-1)},\frac{(n-1)S^2}{\chi^2_{1-\frac \alpha 2}(n-1)})