S3 第四章：中心极限定理与均值比较

引言：连接过去与未来

我们从哪里来（第三章与 S2）

在第三章中，我们学习了如何评估估计量（偏差、效率）并构建置信区间。然而，我们几乎所有的计算都依赖于一个关键假设： “假设总体服从正态分布。” 但实际数据通常是偏态的、离散的或就是很奇怪。那我们该怎么办？

我们要去哪里（第四章）

在本章中，我们将这些 S2 近似推广到任何分布。

目标 1： 使用 CLT 对来自任何分布的单个样本均值进行推断。
目标 2： 使用 CLT 比较来自不同分布的两个样本均值。

1. 计算机模拟与样本均值的形状

2. 中央极限定理（CLT）

非正式表述

正式版本

定理：中央极限定理

设 $X_1, X_2, \ldots, X_n$ 为独立同分布的随机变量，满足

E[X_i] = \mu, \qquad \mathrm{Var}(X_i) = \sigma^2 < \infty.

则当 $n \to \infty$ 时，

Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \;\Longrightarrow\; N(0, 1),

即 $Z$ 的分布趋向标准正态分布。

对于大的 $n$ ，这给出了有用的近似

\bar{X} \approx N\!\left(\mu, \frac{\sigma^2}{n}\right).

条件和注意事项

示例：离散一般分布

考虑一个高度波动的资产。其年收益率 $R$ 服从离散分布：

亏损（-10%）： 概率 $0.2$
持平（0%）： 概率 $0.5$
收益（+20%）： 概率 $0.3$

这个分布是离散的且不对称。

任务： 假设你持有 $n=50$ 个这样的独立资产的投资组合。你的平均收益率大于 5% 的概率是多少？

第 1 步：计算总体参数（ $\mu, \sigma^2$ ）

首先，我们分析单个资产 $R$ 。

E[R] = (-10 \times 0.2) + (0 \times 0.5) + (20 \times 0.3) = -2 + 0 + 6 = 4\%

E[R^2] = ((-10)^2 \times 0.2) + (0^2 \times 0.5) + (20^2 \times 0.3) = (100 \times 0.2) + 0 + (400 \times 0.3) = 20 + 120 = 140

\text{Var}(R) = E[R^2] - (E[R])^2 = 140 - 4^2 = 124

所以，总体具有 $\mu = 4$ 和 $\sigma^2 = 124$ 。

第 2 步：将 CLT 应用于样本均值 $\bar{R}$

由于 $n=50$ 很大，平均收益率 $\bar{R}$ 服从：

\bar{R} \sim N\left(\mu, \frac{\sigma^2}{n}\right) = N\left(4, \frac{124}{50}\right) = N(4, 2.48)

$\bar{R}$ 的标准差 = $\sqrt{2.48} \approx 1.575$ 。

第 3 步：计算概率

我们要求 $P(\bar{R} > 5)$ 。标准化：

Z = \frac{5 - 4}{1.575} = \frac{1}{1.575} \approx 0.635

使用标准正态表：

P(Z > 0.635) = 1 - P(Z < 0.635) \approx 1 - 0.737 = 0.263

结论： 尽管单个资产具有离散的、“跳跃性”的分布，但投资组合的平均值表现为正态分布。投资组合超过 5% 的概率约为 26.3%。

3. 使用 CLT 进行单样本推断

均值的抽样分布（非正态总体）

在 CLT 下，当 $n$ 很大时，

\bar{X} \approx N\!\left(\mu, \frac{\sigma^2}{n}\right).

如果 $\sigma$ 未知，我们用样本标准差 $S$ 来估计，并近似为

\bar{X} \approx N\!\left(\mu, \frac{S^2}{n}\right).

定义：均值的估计标准误差

对于大小为 $n$ 的大样本，样本均值的估计标准误差为

\mathrm{SE}(\bar{X}) = \frac{S}{\sqrt{n}},

其中 $S$ 是样本标准差。

均值的大样本置信区间

使用 CLT，对于大的 $n$ ，我们近似有

Z = \frac{\bar{X} - \mu}{S/\sqrt{n}} \approx N(0, 1).

因此， $\mu$ 的 $100(1-\alpha)\%$ 置信区间为

\bar{X} \pm z^* \cdot \frac{S}{\sqrt{n}},

其中 $z^*$ 满足对于 $Z \sim N(0,1)$ ， $P(-z^* < Z < z^*) = 1 - \alpha$ 。

置信水平	$\alpha$	$z^*$
90%	0.10	1.645
95%	0.05	1.96
99%	0.01	2.576

均值的大样本 $z$ 检验

要检验

H_0: \mu = \mu_0 \quad\text{vs}\quad H_1: \mu \ne \mu_0,

在大样本且 $\sigma$ 未知的情况下，我们使用检验统计量

Z = \frac{\bar{X} - \mu_0}{S/\sqrt{n}} \approx N(0, 1) \quad\text{在 } H_0 \text{ 下}.

如果 $|Z|$ 太大（超出由选定显著性水平确定的临界区域），我们拒绝 $H_0$ 。

4. CLT 用于均值之差

独立样本与均值之差

假设有两个总体：

总体 A，均值为 $\mu_A$ ，方差为 $\sigma_A^2$
总体 B，均值为 $\mu_B$ ，方差为 $\sigma_B^2$

我们抽取独立的随机样本：

X_1, \ldots, X_{n_A} \quad\text{来自总体 A}, \qquad Y_1, \ldots, Y_{n_B} \quad\text{来自总体 B},

并形成样本均值 $\bar{X}$ 和 $\bar{Y}$ 。

如果两个样本量都很大，CLT 给出

\bar{X} \approx N\!\left(\mu_A, \frac{\sigma_A^2}{n_A}\right), \qquad \bar{Y} \approx N\!\left(\mu_B, \frac{\sigma_B^2}{n_B}\right),

并且，由于样本是独立的，

\bar{X} - \bar{Y} \approx N\!\left(\mu_A - \mu_B, \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B}\right).

差值的标准误差

当总体方差未知时，我们用样本方差 $S_A^2$ 和 $S_B^2$ 来估计它们，并使用估计的标准误差

\mathrm{SE}(\bar{X} - \bar{Y}) = \sqrt{\frac{S_A^2}{n_A} + \frac{S_B^2}{n_B}}.

均值之差的置信区间

$\mu_A - \mu_B$ 的大样本 $100(1-\alpha)\%$ 置信区间为

(\bar{X} - \bar{Y}) \pm z^* \cdot \mathrm{SE}(\bar{X} - \bar{Y}).

均值之差的假设检验

要检验

H_0: \mu_A - \mu_B = \Delta_0

对照单侧或双侧备择假设，我们使用

Z = \frac{(\bar{X} - \bar{Y}) - \Delta_0}{\mathrm{SE}(\bar{X} - \bar{Y})} \approx N(0,1) \quad\text{在 } H_0 \text{ 下}

对于大样本。

示例：偏态分布与均匀分布

一位工程师比较旧服务器（A）和新服务器（B）。

服务器 A（旧）： 延迟是偏态的。大多数请求很快，但有些会挂起。 $\mu_A = 205 \text{ ms}, \quad \sigma_A = 50 \text{ ms}$
服务器 B（新）： 延迟均匀分布在 150ms 到 210ms 之间。 $X_B \sim U[150, 210]$

我们从 A 收集 $n_A = 100$ 个请求，从 B 收集 $n_B = 100$ 个请求。

问题： A 的样本均值比 B 慢（高）至少 20ms 的概率是多少？即 $P(\bar{X}_A - \bar{X}_B > 20)$ 。

第 1 步：确定 B 的参数

对于均匀分布 $[a, b]$ ：

\mu_B = \frac{a+b}{2} = \frac{150+210}{2} = 180 \text{ ms}

\sigma_B^2 = \frac{(b-a)^2}{12} = \frac{(60)^2}{12} = \frac{3600}{12} = 300

第 2 步：差值的分布

均值差： $\mu_{diff} = \mu_A - \mu_B = 205 - 180 = 25 \text{ ms}$ 。

差值的方差：

\text{Var}(\bar{X}_A - \bar{X}_B) = \frac{\sigma_A^2}{n_A} + \frac{\sigma_B^2}{n_B} = \frac{50^2}{100} + \frac{300}{100} = \frac{2500}{100} + 3 = 25 + 3 = 28

标准误差 = $\sqrt{28} \approx 5.29$ ms。

第 3 步：计算概率

我们要求 $P(D > 20)$ ，其中 $D \sim N(25, 28)$ 。

Z = \frac{20 - 25}{5.29} = \frac{-5}{5.29} \approx -0.945

P(Z > -0.945) = P(Z < 0.945) \approx 0.8277

洞察： 尽管 A 是偏态的，B 是均匀的，但我们可以使用正态分布轻松计算它们差值的概率！

家庭作业

A 部分：CLT 与单样本均值

B 部分：使用 CLT 的单样本检验

一台机器将 $X$ 克粉末装入包装，其中 $X$ 服从均值为 $\mu$ 的正态分布。每包应含有 1 公斤粉末。

为符合法规，随机选取的一包中粉末的重量应满足 $P(X < \mu - 30) = 0.0005.$

a. 证明这要求标准差为 $9.117$ 克（精确到小数点后 3 位）。(3)

从机器中随机抽取 10 包。每包中粉末的重量（克）如下： $999.8,\; 991.6,\; 1000.3,\; 1006.1,\; 1008.2,\; 997.0,\; 993.2,\; 1000.0,\; 997.1,\; 1002.1.$

b. 假设总体标准差为 $9.117$ 克，在 1% 显著性水平下检验机器是否交付了平均重量低于 1 公斤的包装。清楚说明你的假设。(7)

C 部分：两均值之差

一名学生认为英语电影和法语电影的平均长度有差异。他去大学视频库随机选取了 120 部英语电影和 70 部法语电影的样本。他记录了样本中每部电影的长度 $x$ （分钟）。他的数据汇总在下表中。

	$\sum x$	$\sum x^2$	$s^2$	$n$
英语电影	10650	956909	98.5	120
法语电影	6510	615849	151	70

a. 验证英语电影长度方差的无偏估计值 $s^2$ 为 $98.5~\text{minutes}^2$ 。(2)

b. 清楚说明你的假设，在 1% 显著性水平下检验英语电影和法语电影的平均长度是否不同。(7)

c. 解释中央极限定理对 (b) 部分检验的意义。(1)

d. 大学视频库包含 724 部英语电影和 473 部法语电影。解释学生如何对这些电影进行 190 部的分层抽样。(3)