跳转到内容

S3 第四章:中心极限定理与均值比较

在第三章中,我们学习了如何评估估计量(偏差、效率)并构建置信区间。然而,我们几乎所有的计算都依赖于一个关键假设: “假设总体服从正态分布。” 但实际数据通常是偏态的、离散的或就是很奇怪。那我们该怎么办?

在本章中,我们将这些 S2 近似推广到任何分布。

  • 目标 1: 使用 CLT 对来自任何分布的单个样本均值进行推断。
  • 目标 2: 使用 CLT 比较来自不同分布的两个样本均值。

1. 计算机模拟与样本均值的形状

Section titled “1. 计算机模拟与样本均值的形状”

定理:中央极限定理

X1,X2,,XnX_1, X_2, \ldots, X_n 为独立同分布的随机变量,满足

E[Xi]=μ,Var(Xi)=σ2<.E[X_i] = \mu, \qquad \mathrm{Var}(X_i) = \sigma^2 < \infty.

则当 nn \to \infty 时,

Z=Xˉμσ/n    N(0,1),Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \;\Longrightarrow\; N(0, 1),

ZZ 的分布趋向标准正态分布。

对于大的 nn,这给出了有用的近似

XˉN ⁣(μ,σ2n).\bar{X} \approx N\!\left(\mu, \frac{\sigma^2}{n}\right).

示例:离散一般分布

考虑一个高度波动的资产。其年收益率 RR 服从离散分布:

  • 亏损(-10%): 概率 0.20.2
  • 持平(0%): 概率 0.50.5
  • 收益(+20%): 概率 0.30.3

这个分布是离散的且不对称。

任务: 假设你持有 n=50n=50 个这样的独立资产的投资组合。你的平均收益率大于 5% 的概率是多少?

第 1 步:计算总体参数(μ,σ2\mu, \sigma^2

首先,我们分析单个资产 RR

E[R]=(10×0.2)+(0×0.5)+(20×0.3)=2+0+6=4%E[R] = (-10 \times 0.2) + (0 \times 0.5) + (20 \times 0.3) = -2 + 0 + 6 = 4\% E[R2]=((10)2×0.2)+(02×0.5)+(202×0.3)=(100×0.2)+0+(400×0.3)=20+120=140E[R^2] = ((-10)^2 \times 0.2) + (0^2 \times 0.5) + (20^2 \times 0.3) = (100 \times 0.2) + 0 + (400 \times 0.3) = 20 + 120 = 140 Var(R)=E[R2](E[R])2=14042=124\text{Var}(R) = E[R^2] - (E[R])^2 = 140 - 4^2 = 124

所以,总体具有 μ=4\mu = 4σ2=124\sigma^2 = 124

第 2 步:将 CLT 应用于样本均值 Rˉ\bar{R}

由于 n=50n=50 很大,平均收益率 Rˉ\bar{R} 服从:

RˉN(μ,σ2n)=N(4,12450)=N(4,2.48)\bar{R} \sim N\left(\mu, \frac{\sigma^2}{n}\right) = N\left(4, \frac{124}{50}\right) = N(4, 2.48)

Rˉ\bar{R} 的标准差 = 2.481.575\sqrt{2.48} \approx 1.575

第 3 步:计算概率

我们要求 P(Rˉ>5)P(\bar{R} > 5)。标准化:

Z=541.575=11.5750.635Z = \frac{5 - 4}{1.575} = \frac{1}{1.575} \approx 0.635

使用标准正态表:

P(Z>0.635)=1P(Z<0.635)10.737=0.263P(Z > 0.635) = 1 - P(Z < 0.635) \approx 1 - 0.737 = 0.263

结论: 尽管单个资产具有离散的、“跳跃性”的分布,但投资组合的平均值表现为正态分布。投资组合超过 5% 的概率约为 26.3%。

均值的抽样分布(非正态总体)

Section titled “均值的抽样分布(非正态总体)”

在 CLT 下,当 nn 很大时,

XˉN ⁣(μ,σ2n).\bar{X} \approx N\!\left(\mu, \frac{\sigma^2}{n}\right).

如果 σ\sigma 未知,我们用样本标准差 SS 来估计,并近似为

XˉN ⁣(μ,S2n).\bar{X} \approx N\!\left(\mu, \frac{S^2}{n}\right).

定义:均值的估计标准误差

对于大小为 nn 的大样本,样本均值的估计标准误差

SE(Xˉ)=Sn,\mathrm{SE}(\bar{X}) = \frac{S}{\sqrt{n}},

其中 SS 是样本标准差。

使用 CLT,对于大的 nn,我们近似有

Z=XˉμS/nN(0,1).Z = \frac{\bar{X} - \mu}{S/\sqrt{n}} \approx N(0, 1).

因此,μ\mu100(1α)%100(1-\alpha)\% 置信区间为

Xˉ±zSn,\bar{X} \pm z^* \cdot \frac{S}{\sqrt{n}},

其中 zz^* 满足对于 ZN(0,1)Z \sim N(0,1)P(z<Z<z)=1αP(-z^* < Z < z^*) = 1 - \alpha

置信水平α\alphazz^*
90%0.101.645
95%0.051.96
99%0.012.576

要检验

H0:μ=μ0vsH1:μμ0,H_0: \mu = \mu_0 \quad\text{vs}\quad H_1: \mu \ne \mu_0,

在大样本且 σ\sigma 未知的情况下,我们使用检验统计量

Z=Xˉμ0S/nN(0,1)在 H0 下.Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \approx N(0, 1) \quad\text{在 } H_0 \text{ 下}.

如果 Z|Z| 太大(超出由选定显著性水平确定的临界区域),我们拒绝 H0H_0

假设有两个总体:

  • 总体 A,均值为 μA\mu_A,方差为 σA2\sigma_A^2
  • 总体 B,均值为 μB\mu_B,方差为 σB2\sigma_B^2

我们抽取独立的随机样本:

X1,,XnA来自总体 A,Y1,,YnB来自总体 B,X_1, \ldots, X_{n_A} \quad\text{来自总体 A}, \qquad Y_1, \ldots, Y_{n_B} \quad\text{来自总体 B},

并形成样本均值 Xˉ\bar{X}Yˉ\bar{Y}

如果两个样本量都很大,CLT 给出

XˉN ⁣(μA,σA2nA),YˉN ⁣(μB,σB2nB),\bar{X} \approx N\!\left(\mu_A, \frac{\sigma_A^2}{n_A}\right), \qquad \bar{Y} \approx N\!\left(\mu_B, \frac{\sigma_B^2}{n_B}\right),

并且,由于样本是独立的,

XˉYˉN ⁣(μAμB,σA2nA+σB2nB).\bar{X} - \bar{Y} \approx N\!\left(\mu_A - \mu_B, \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}\right).

当总体方差未知时,我们用样本方差 SA2S_A^2SB2S_B^2 来估计它们,并使用估计的标准误差

SE(XˉYˉ)=SA2nA+SB2nB.\mathrm{SE}(\bar{X} - \bar{Y}) = \sqrt{\frac{S_A^2}{n_A} + \frac{S_B^2}{n_B}}.

μAμB\mu_A - \mu_B 的大样本 100(1α)%100(1-\alpha)\% 置信区间为

(XˉYˉ)±zSE(XˉYˉ).(\bar{X} - \bar{Y}) \pm z^* \cdot \mathrm{SE}(\bar{X} - \bar{Y}).

要检验

H0:μAμB=Δ0H_0: \mu_A - \mu_B = \Delta_0

对照单侧或双侧备择假设,我们使用

Z=(XˉYˉ)Δ0SE(XˉYˉ)N(0,1)在 H0 下Z = \frac{(\bar{X} - \bar{Y}) - \Delta_0}{\mathrm{SE}(\bar{X} - \bar{Y})} \approx N(0,1) \quad\text{在 } H_0 \text{ 下}

对于大样本。

示例:偏态分布与均匀分布

一位工程师比较旧服务器(A)和新服务器(B)。

  • 服务器 A(旧): 延迟是偏态的。大多数请求很快,但有些会挂起。 μA=205 ms,σA=50 ms\mu_A = 205 \text{ ms}, \quad \sigma_A = 50 \text{ ms}
  • 服务器 B(新): 延迟均匀分布在 150ms 到 210ms 之间。 XBU[150,210]X_B \sim U[150, 210]

我们从 A 收集 nA=100n_A = 100 个请求,从 B 收集 nB=100n_B = 100 个请求。

问题: A 的样本均值比 B 慢(高)至少 20ms 的概率是多少?即 P(XˉAXˉB>20)P(\bar{X}_A - \bar{X}_B > 20)

第 1 步:确定 B 的参数

对于均匀分布 [a,b][a, b]

μB=a+b2=150+2102=180 ms\mu_B = \frac{a+b}{2} = \frac{150+210}{2} = 180 \text{ ms} σB2=(ba)212=(60)212=360012=300\sigma_B^2 = \frac{(b-a)^2}{12} = \frac{(60)^2}{12} = \frac{3600}{12} = 300

第 2 步:差值的分布

均值差:μdiff=μAμB=205180=25 ms\mu_{diff} = \mu_A - \mu_B = 205 - 180 = 25 \text{ ms}

差值的方差:

Var(XˉAXˉB)=σA2nA+σB2nB=502100+300100=2500100+3=25+3=28\text{Var}(\bar{X}_A - \bar{X}_B) = \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B} = \frac{50^2}{100} + \frac{300}{100} = \frac{2500}{100} + 3 = 25 + 3 = 28

标准误差 = 285.29\sqrt{28} \approx 5.29 ms。

第 3 步:计算概率

我们要求 P(D>20)P(D > 20),其中 DN(25,28)D \sim N(25, 28)

Z=20255.29=55.290.945Z = \frac{20 - 25}{5.29} = \frac{-5}{5.29} \approx -0.945 P(Z>0.945)=P(Z<0.945)0.8277P(Z > -0.945) = P(Z < 0.945) \approx 0.8277

洞察: 尽管 A 是偏态的,B 是均匀的,但我们可以使用正态分布轻松计算它们差值的概率!