在第三章中,我们学习了如何评估估计量(偏差、效率)并构建置信区间。然而,我们几乎所有的计算都依赖于一个关键假设:
“假设总体服从正态分布。”
但实际数据通常是偏态的、离散的或就是很奇怪。那我们该怎么办?
在本章中,我们将这些 S2 近似推广到任何分布。
- 目标 1: 使用 CLT 对来自任何分布的单个样本均值进行推断。
- 目标 2: 使用 CLT 比较来自不同分布的两个样本均值。
定理:中央极限定理
设 X1,X2,…,Xn 为独立同分布的随机变量,满足
E[Xi]=μ,Var(Xi)=σ2<∞.
则当 n→∞ 时,
Z=σ/nXˉ−μ⟹N(0,1),
即 Z 的分布趋向标准正态分布。
对于大的 n,这给出了有用的近似
Xˉ≈N(μ,nσ2).
示例:离散一般分布
考虑一个高度波动的资产。其年收益率 R 服从离散分布:
- 亏损(-10%): 概率 0.2
- 持平(0%): 概率 0.5
- 收益(+20%): 概率 0.3
这个分布是离散的且不对称。
任务: 假设你持有 n=50 个这样的独立资产的投资组合。你的平均收益率大于 5% 的概率是多少?
第 1 步:计算总体参数(μ,σ2)
首先,我们分析单个资产 R。
E[R]=(−10×0.2)+(0×0.5)+(20×0.3)=−2+0+6=4%
E[R2]=((−10)2×0.2)+(02×0.5)+(202×0.3)=(100×0.2)+0+(400×0.3)=20+120=140
Var(R)=E[R2]−(E[R])2=140−42=124
所以,总体具有 μ=4 和 σ2=124。
第 2 步:将 CLT 应用于样本均值 Rˉ
由于 n=50 很大,平均收益率 Rˉ 服从:
Rˉ∼N(μ,nσ2)=N(4,50124)=N(4,2.48)
Rˉ 的标准差 = 2.48≈1.575。
第 3 步:计算概率
我们要求 P(Rˉ>5)。标准化:
Z=1.5755−4=1.5751≈0.635
使用标准正态表:
P(Z>0.635)=1−P(Z<0.635)≈1−0.737=0.263
结论: 尽管单个资产具有离散的、“跳跃性”的分布,但投资组合的平均值表现为正态分布。投资组合超过 5% 的概率约为 26.3%。
在 CLT 下,当 n 很大时,
Xˉ≈N(μ,nσ2).
如果 σ 未知,我们用样本标准差 S 来估计,并近似为
Xˉ≈N(μ,nS2).
定义:均值的估计标准误差
对于大小为 n 的大样本,样本均值的估计标准误差为
SE(Xˉ)=nS,
其中 S 是样本标准差。
使用 CLT,对于大的 n,我们近似有
Z=S/nXˉ−μ≈N(0,1).
因此,μ 的 100(1−α)% 置信区间为
Xˉ±z∗⋅nS,
其中 z∗ 满足对于 Z∼N(0,1),P(−z∗<Z<z∗)=1−α。
| 置信水平 | α | z∗ |
|---|
| 90% | 0.10 | 1.645 |
| 95% | 0.05 | 1.96 |
| 99% | 0.01 | 2.576 |
要检验
H0:μ=μ0vsH1:μ=μ0,
在大样本且 σ 未知的情况下,我们使用检验统计量
Z=S/nXˉ−μ0≈N(0,1)在 H0 下.
如果 ∣Z∣ 太大(超出由选定显著性水平确定的临界区域),我们拒绝 H0。
假设有两个总体:
- 总体 A,均值为 μA,方差为 σA2
- 总体 B,均值为 μB,方差为 σB2
我们抽取独立的随机样本:
X1,…,XnA来自总体 A,Y1,…,YnB来自总体 B,
并形成样本均值 Xˉ 和 Yˉ。
如果两个样本量都很大,CLT 给出
Xˉ≈N(μA,nAσA2),Yˉ≈N(μB,nBσB2),
并且,由于样本是独立的,
Xˉ−Yˉ≈N(μA−μB,nAσA2+nBσB2).
当总体方差未知时,我们用样本方差 SA2 和 SB2 来估计它们,并使用估计的标准误差
SE(Xˉ−Yˉ)=nASA2+nBSB2.
μA−μB 的大样本 100(1−α)% 置信区间为
(Xˉ−Yˉ)±z∗⋅SE(Xˉ−Yˉ).
要检验
H0:μA−μB=Δ0
对照单侧或双侧备择假设,我们使用
Z=SE(Xˉ−Yˉ)(Xˉ−Yˉ)−Δ0≈N(0,1)在 H0 下
对于大样本。
示例:偏态分布与均匀分布
一位工程师比较旧服务器(A)和新服务器(B)。
- 服务器 A(旧): 延迟是偏态的。大多数请求很快,但有些会挂起。
μA=205 ms,σA=50 ms
- 服务器 B(新): 延迟均匀分布在 150ms 到 210ms 之间。
XB∼U[150,210]
我们从 A 收集 nA=100 个请求,从 B 收集 nB=100 个请求。
问题: A 的样本均值比 B 慢(高)至少 20ms 的概率是多少?即 P(XˉA−XˉB>20)。
第 1 步:确定 B 的参数
对于均匀分布 [a,b]:
μB=2a+b=2150+210=180 ms
σB2=12(b−a)2=12(60)2=123600=300
第 2 步:差值的分布
均值差:μdiff=μA−μB=205−180=25 ms。
差值的方差:
Var(XˉA−XˉB)=nAσA2+nBσB2=100502+100300=1002500+3=25+3=28
标准误差 = 28≈5.29 ms。
第 3 步:计算概率
我们要求 P(D>20),其中 D∼N(25,28)。
Z=5.2920−25=5.29−5≈−0.945
P(Z>−0.945)=P(Z<0.945)≈0.8277
洞察: 尽管 A 是偏态的,B 是均匀的,但我们可以使用正态分布轻松计算它们差值的概率!