概率论与数理统计笔记
随机事件和概率
随机实验(简称实验)得到样本点,样本点的集合构成事件,一个样本点构成基本事件,所有的样本点组成样本空间Ω。
样本空间可以是不可数的,此时P(A)=0不意味着A为空集
因为事件是集合,集合的运算也对事件成立。有集合论和概率论的概念对照表。
概率论 |
集合论 |
样本空间,必然事件 |
全集 |
不可能事件 |
空集 |
样本点,基本事件 |
元素 |
事件 |
子集 |
A的对立事件 |
补集 |
A发生,则B发生 |
A是B的子集 |
AB至少有一个发生 |
A与B的合集 |
AB同时发生 |
A与B的交集 |
A发生,B不发生 |
A与B的差集 |
事件A与B不相容 |
A与B无公共元素 |
将多次实验得到A的频率称为统计概率P(A),有如下性质。
- 非负性 0≤P(A)≤1
- 规范性 P(Ω)=1
- 可加性 若AB=∅,则P(A∪B)=P(A)+P(B)
如果样本空间可数,同时基本事件发生概率相等,称这种随机实验为古典型实验。此数学模型称为古典概型,也叫等可能概型。
如果所有样本点都是某可测度的空间上的点,且空间任一区域的概率和该区域的测度成正比,与区域的形状无关,称这种随机实验为几何型实验,其概率称为几何概率。
数学上概率定义为满足下列性质的事件对实数的函数P
- 非负性 0≤P(A)≤1
- 规范性 P(Ω)=1
- 可列可加性 若所有Ai不相容,则P(⋃i=0+∞Ai)=P(A)+P(B)
- 有限可加性 若所有Ai不相容,则P(⋃i=0nAi)=P(A)+P(B)
定义条件概率,含义为一次随机实验中已知A发生情况下,B发生的概率。
P(B∣A)=P(A)P(AB)
定义分割,如果⋃Ai=Ω,且所有Ai都不相容,称Ai构成了Ω的一个分割。
对于分割Ai,事件B有全概率公式(顺着因果链)
P(B)=∑P(Ai)P(B∣Ai)
对于分割Ai,事件B有贝叶斯公式(倒着因果链)
P(Ai∣B)=P(B)P(B∣Ai)P(Ai)=∑P(Ai)P(B∣Ai)P(B∣Ai)P(Ai)
事件A,B互相独立当且仅当P(AB)=P(A)P(B)
事件Ai互相独立当且仅当对于任意两个Ai和Aj,其互相独立。
伯努利概型为Ω={A,Aˉ}
随机变量及其分布
定义随机变量为样本点到实数的单射函数。通常用X(w),Y(w),Z(w)表示。
离散型随机变量
对于离散型随机变量定义随机变量的密度函数为fX(x)=P{X=x}
两点分布
X∼B(1,p)P{X=1}=p,P{X=1}=q (0≤p≤1,q=1−p)
二项分布
X∼B(n,p)P{X=k}=Cnkpkqn−k, k=0,1,2,…,n(0<p<1.q=1−p)
泊松分布
X∼P(λ)P{X=k}=k!λke−λ, k=0,1,2,…(λ>0)
当X=B(n,p)中n≥20,p≤0.05时P{X=k}≈P{P(np)=k}
定义分布函数F(x)=P{X≤x}=∫−∞xf(x)dx,有如下性质
- 单调性
- 非负有界性 0≤F(x)≤1
- 右连续
- F(−∞)=0;F(+∞)=1
连续形随机变量
对于连续型随机变量定义随机变量的密度函数F(x),满足F(x)=∫−∞xf(u)du,有以下性质
- fX(x)=FX′(x)
均匀分布
X∼U[a,b]f(x)={b−a1,0,a≤x≤b,others.
指数分布
X∼E(λ)(λ>0)f(x)={λe−λx,0,x≥0,others.
正态分布
X∼N(μ,σ2)f(x)=2πσ1e2σ2−(x−μ)2
离散型随机变量函数的分布可以使用以下方法求出(设函数g单调)
FY(y)=P{Y≤y}=P{g(X)≤y}=P{X≤g−1(y)}=∫ag−1(y)fX(x)dxfY(y)=FY′(y)=fX(g−1(y))[˙g−1(y)]′
多维随机变量及其分布
设X(w)、Y(w)是定义在Ω上的两个随机变量,其整体(X(w),Y(w))称为二位随机变量。二维随机变量实际上是Ω到R2的单射。
类似的,定义分布函数F(x,y)=P{X≤x,Y≤y},有以下性质
- 分别对x和y单调
- 非负性 0≤F(x,y)≤1
- F(x,−∞)=F(−∞,y)=F(−∞,−∞)=0
- F(+∞,+∞)=0
- 二维差分非负性F(x2,y2)−F(x2,y1)−F(x1,y2)+F(x1,y1)≥0,x1<x2,y1<y2
定义二位随机变量关于X的边缘分布函数为FX(x)=P{X≤x}=P{X≤x,y<+∞},对于Y类似
称随机变量X,Y相互独立当且仅当∀x,∀y, F(x,y)=FX(x)⋅FY(y)成立
定义二维离散型随机变量条件分布P{X=xi∣Y=yi}=P{Y=yi}P{X=xi,Y=yi}
定义二维连续型随机变量条件分布fY∣X(y∣x)=fX(x)f(x,y)
定义二维连续型随机变量的密度函数f(x,y),满足F(x,y)=∫−∞y∫−∞xf(u,v)dudv。有以下性质
- ∂x∂y∂2F(x,y)=f(x,y)
- P{(X,Y)∈G}=∬Gf(x,y)dxdy
多维随机变量函数的分布同样可以使用离散型随机变量函数的分布方法求出。
随机变量的数字特征
E(X)=∑xipiE(X)=∫xf(x)dxE(g(X0,…,Xi))=∑g(x0,…,xi)f(x0,…,xi)D(X)=E((X−E(X))2)D(X)=∫(x−E(X))2f(x)dxD(X)=E(X2)−E(X)2σ(X)=D(X)cov(X,Y)=E((X−E(X))(Y−E(Y)))=E(XY)−E(X)E(Y)X∗=D(X)X−E(X)ρ(X,Y)=D(X)D(Y)cov(X,Y)
期望有线性性质(可加性,齐次性);
常用分布的数学期望和方差
两点分布/二项分布X∼B(n,p)
E(X)=np
D(X)=np(1−p)
泊松分布X∼P(λ)
E(X)=λ
D(X)=λ
均匀分布X∼U[a,b]
E(X)=2a+b
D(X)=12(b−a)2
指数分布X∼E(λ)
E(X)=λ1
D(X)=λ21
正态分布X∼N(μ,σ2)
E(X)=μ
D(X)=σ2
下文中X,Y均为随机变量。
称X的k阶原点矩,也称k阶矩为E(Xk)
称X的k阶中心矩为E((X−E(X))k)
称X,Y的k+l阶混合矩为E(XkYl)
称X,Y的k+l阶混合中心矩为E((X−E(X))k(Y−E(Y))l)
E(X)是X的一阶中心矩;D(X)是X的二阶中心矩;cov(X,Y)是X和Y的二阶混合中心矩
定义Cij为Xi和Xj的二阶混合中心矩,称下面的矩阵为(X1,X2,…,Xn)的协方差矩阵
⎣⎢⎢⎢⎡C11C21⋮Cn1C12C22⋮Cn2………C1nC2n⋮Cnn⎦⎥⎥⎥⎤
数理统计的基本概念
研究对象的全体称为总体X,总体的一部分个体称为样本(X1,X2,…,Xn)。定义统计量g(X1,X2,…,Xn)为样本为参数的函数,统计量也是个随机变量。对于样本类似的定义以下统计量。
样本平均值X=n1∑i=1nXi
样本方差S2=n−11∑(Xi−X)2=n−11(∑Xi2−nX2)
样本标准差S=S2
样本k阶(原点)矩Ak=n1∑Xik
样本k阶中心矩Bk=n1∑(Xi−X)k
样本协方差SXY=n−11∑(Xi−X)(Yi−Y)
样本相关系数R=SX⋅SYSXY
对于X∼N(μ,σ2)的总体,有以下数理统计基本定理
- X∼N(μ,nσ2)
- X和S2独立
- σ2(n−1)S2∼χ2(n−1)
参数估计
设总体X∼N(μ,σ2),(X1,X2,…,Xn)是取自X的样本,用样本值(x1,x2,…,xn)估计μ和σ2就是参数估计问题。
点估计
点估计即把总体的未知参数估计作为某个确定的值或在某个确定的点上,也叫定值估计。
即对于分布函数F(x,θ1,θ2,…,θn)(θ为参数),求θ的一个确定值。
令θ^i(X1,X2,…,Xn)为某种方法得到θi的统计量。
矩估计
已知总体X的k阶矩μk=gk(θ1,θ2,…,θn),函数g已知。
则令k=1…n联立求解即可知所有的θi。
极大似然估计
极大似然估计即求出所有的θi,令样本出现的概率最大,似然函数L(θ1,θ2,…,θn)评估了样本出现的概率。
对于离散型总体,L(θ)=∏p(xi,θ1,θ2,…,θn)
对于连续型总体,L(θ)=∏f(xi,θ1,θ2,…,θn)
令函数L所有方向导数等于0即可求解所有的θi。
估计量的评估
下文中θ^i指某种方法得到的估计量,是关于随机变量样本的函数,θ指真值。
称θ^为无偏估计量当且仅当E(θ^)=θ。(无偏性)
如D(θ^1)<D(θ^2),称θ^1比θ^2有效。(有效性)
记θ^[n]为样本容量为n下得到的估计量,如果对于任意ε>0,都有
n→+∞limP{θ^n−θ<ε}=1
称θ^是θ的一致估计量。(一致性)
区间估计
点估计只能得到一个估计值,我们需要知道估计值的可信度。
如果对于给定的概率1−α,有
P{θ^1<θ<θ^2}=1−α
称随机区间(θ^1,θ^2)为参数θ的置信区间,θ^1称为置信下限,θ^2称为置信上限,1−α称为置信概率或置信度,α一般取值0.05。
对于正态分布的总体,根据X∼N(μ,nσ2),置信水平1−α有以下关于总体两个参数的置信区间。
参数μ的置信区间
- σ2已知 (X−z2αnσ,X+z2αnσ)
- σ2未知 (X−n−1S0t2α(n−1),X+n−1S0t2α(n−1)
参数σ2置信区间
- (χ2α2(n−1)(n−1)S2,χ1−2α2(n−1)(n−1)S2)