S3 第三章：估计与置信区间

从数据到决策：理解样本能告诉我们什么

在第一章中，我们学习了如何从总体中收集有代表性的样本。我们使用适当的抽样方法，从 HelloTea 的 3,000 名客户中精心挑选了 200 名学生。现在我们面临下一个关键问题：

我们用这些数据做什么？

完成调查后，我们计算出样本均值满意度得分： $\bar{X} = 4.2$ （0 到 5 分制）。这是我们对所有 3,000 名学生真实平均满意度 $\mu$ 的最佳估计。但这个估计有多可靠？

要严格回答这些问题，我们需要一个数学框架。本章发展统计估计的理论，并展示如何使用置信区间来量化不确定性。

关键假设

在继续之前，我们必须明确说明方法所依赖的假设。

1. 估计量：起点

自然的问题

我们用样本均值 $\bar{X} = 4.2$ 来估计总体均值 $\mu$ 。这看起来很自然——毕竟，样本的平均值应该能告诉我们总体平均值的某些信息。但我们怎么知道这是一个好的估计？

要回答这个问题，我们需要正式定义”估计量”的含义。

定义：估计量

估计量是一个统计量（样本数据的函数），用于估计未知的总体参数。

点估计量产生单个数值作为估计值。

符号： 我们通常用 $\hat{\theta}$ 表示参数 $\theta$ 的估计量。

示例：HelloTea 估计量

在我们的满意度调查中：

总体参数： $\mu$ = 所有 3,000 名学生的真实平均满意度（未知）
估计量： $\bar{X}$ = 样本均值 = $\frac{1}{n}\sum_{i=1}^{n} X_i$
估计值： $\bar{x} = 4.2$ （我们观察到的具体值）

注意： $\bar{X}$ 是一个随机变量（估计量），而 $\bar{x} = 4.2$ 是我们计算出的具体数字。

如何判断估计量？

现在我们有了 $\mu$ 的估计量 $\bar{X}$ ，我们面临两个关键问题：

2. 偏差：我们是否系统性地错误？

定义偏差

第一个问题是我们的估计量是否有系统性偏差——它是否倾向于偏高或偏低？

定义：偏差

估计量 $\hat{\theta}$ 对参数 $\theta$ 的偏差定义为： $\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta$

如果 $E[\hat{\theta}] = \theta$ ，即 $\text{Bias}(\hat{\theta}) = 0$ ，则估计量是无偏的。

解释： 无偏估计量在”平均意义上是正确的”——如果我们无限次重复抽样过程，所有估计值的平均值将等于真实参数。

样本均值是否无偏？

让我们检查 $\bar{X}$ 是否是 $\mu$ 的无偏估计量。

问题： $E[\bar{X}] = \mu$ 吗？

要回答这个问题，我们需要计算 $E[\bar{X}]$ 。线性规则在随机变量的组合讲义中已经介绍过，所以我们这里专注于它们在估计中的应用。

现在我们可以检查 $\bar{X}$ 是否无偏：

示例：样本均值是无偏的

计算：

\begin{aligned} E[\bar{X}] &= E\left[\frac{1}{200}\sum_{i=1}^{200} X_i\right] = \frac{1}{200} E\left[\sum_{i=1}^{200} X_i\right] = \frac{1}{200} \sum_{i=1}^{200} E[X_i] = \frac{1}{200} \sum_{i=1}^{200} \mu = \mu \end{aligned}

结论： $E[\bar{X}] = \mu$ ，所以样本均值是总体均值的无偏估计量！

解释： 平均而言（在多次重复抽样中）， $\bar{X}$ 等于真实均值 $\mu$ 。我们的具体观察值 $\bar{x} = 4.2$ 可能高于或低于 $\mu$ ，但方法本身没有系统性偏差。

示例：样本方差与偏差的发现

并非所有自然的估计量都是无偏的。让我们检验样本方差。

示例：有偏的样本方差

假设我们想估计总体方差 $\sigma^2$ 。自然的估计量可能是： $\text{自然估计量：} \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$

这只是与样本均值的平均平方偏差。它是否无偏？

让我们计算（为简单起见，我们展示关键思路）：

可以证明（请参阅挑战练习了解详情）： $E\left[\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2$

发现： 这不等于 $\sigma^2$ ！偏差为： $\text{Bias} = \frac{n-1}{n}\sigma^2 - \sigma^2 = -\frac{1}{n}\sigma^2 < 0$

自然估计量系统性地低估了真实方差。

为什么？

当我们使用 $\bar{X}$ （从相同数据计算得出）时，我们人为地使偏差变小。样本均值 $\bar{X}$ 使 $\sum(X_i - \bar{X})^2$ 最小化，因此使用它会使方差看起来比实际更小。

修正的样本方差

为了修正这个偏差，我们使用修正后的公式：

定义：无偏样本方差

样本方差（ $\sigma^2$ 的无偏估计量）是： $S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2$

这个修正因子 $(n-1)$ 称为自由度。

验证： $E[S^2] = E\left[\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2\right] = \frac{n}{n-1} \cdot \frac{n-1}{n}\sigma^2 = \sigma^2 \checkmark$

示例：HelloTea：使用正确的公式

在我们的 $n = 200$ 名学生的满意度调查中：

如果我们计算出 $\sum_{i=1}^{200}(X_i - 4.2)^2 = 288$
错误（有偏）： 方差 $\approx \frac{288}{200} = 1.44$
正确（无偏）： $S^2 = \frac{288}{199} \approx 1.447$

这里的差异很小，但原则很重要：样本方差始终使用 $n-1$ ！

一个质量控制团队测试手机电池寿命。对于来自均值为 $\mu$ 、方差为 $\sigma^2$ 的总体的随机样本 $X_1, X_2, \ldots, X_n$ ，团队考虑了两个总体方差的估计量：

估计量 1： $V_1 = \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2$

估计量 2： $V_2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2$

a. 证明 $\bar{X} = \frac{1}{n}(X_1 + X_2 + \cdots + X_n)$ 是总体均值 $\mu$ 的无偏估计量。

b. 已知 $V_2$ 是 $\sigma^2$ 的无偏估计量，求 $V_1$ 作为 $\sigma^2$ 估计量时的偏差。用 $n$ 和 $\sigma^2$ 表示你的答案。

c. 随机抽取了五块电池进行测试。寿命（小时）如下： $435 \quad 390 \quad 356 \quad 388 \quad 449$ 计算 $\mu$ 和 $\sigma^2$ 的无偏估计值。

d. 一位研究人员提出了总体均值 $\mu$ 的替代估计量： $T = \frac{X_1 + 2X_3 + X_5}{4}$

i. 用 $\mu$ 表示计算 $E[T]$ 。 $T$ 是 $\mu$ 的无偏估计量吗？证明你的答案。

ii. 求 $T$ 作为 $\mu$ 估计量的偏差。

iii. 解释为什么标准估计量 $\bar{X} = \frac{1}{n}(X_1 + X_2 + \cdots + X_n)$ 优于 $T$ 。

3. 标准误差：衡量精度

超越偏差：理解变异性

我们已经确定 $\bar{X}$ 是无偏的（ $E[\bar{X}] = \mu$ ），这是好消息！但无偏性并不能说明全部问题。考虑这个思想实验：

这种变异性由标准误差捕获。

定义：标准误差

估计量 $\hat{\theta}$ 的标准误差是其抽样分布的标准差： $\text{SE}(\hat{\theta}) = \sqrt{\text{Var}(\hat{\theta})}$

解释： 较小的标准误差意味着更精确（变异性更小）的估计量。

在独立抽样下的样本均值：

\text{Var}(\bar{X})=\frac{\sigma^2}{n} \quad\Rightarrow\quad \boxed{\text{SE}(\bar{X})=\frac{\sigma}{\sqrt{n}}}.

理解标准误差公式

公式 $\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}$ 揭示了重要的见解：

HelloTea 计算

让我们将其应用于满意度调查：

示例：HelloTea 标准误差

场景： 根据历史数据或试点研究，假设满意度评分的标准差 $\sigma = 1.2$ 分（0-5 分制）。

我们的样本： $n = 200$ 名学生， $\bar{X} = 4.2$

计算标准误差： $\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{1.2}{\sqrt{200}} = \frac{1.2}{14.142} \approx 0.0849$

解释： 样本均值 $\bar{X}$ 通常与真实均值 $\mu$ 相差约 $\pm 0.085$ 分。

如果我们用不同的 200 名学生随机样本多次重复调查，大约 68% 的样本均值会落在 $\mu \pm 0.085$ 范围内。

当总体方差未知时

在实践中，我们通常不知道总体标准差 $\sigma$ 。我们该怎么办？

注意： 对于大样本（ $n \geq 30$ ），使用 $\sigma$ 和 $S$ 之间的差异可以忽略不计。

4. 置信区间：量化不确定性

超越点估计

到目前为止，我们已经学习了：

$\bar{X} = 4.2$ 是 $\mu$ 的无偏估计（没有系统误差）
$\text{SE}(\bar{X}) \approx 0.085$ 告诉我们典型的变异性

但当我们向 HelloTea 的经理报告时，说”平均满意度是 4.2，标准误差为 0.085”并不直观。更好的方法是给出 $\mu$ 的合理值范围。

抽样分布的作用

要构建有意义的区间，我们需要理解 $\bar{X}$ 的分布——不仅仅是它的均值和方差，而是它的整个概率分布。这就是我们的正态性假设变得至关重要的地方！

样本均值的分布

对于置信区间，我们使用关键结果：

\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

在独立正态抽样下。

构建置信区间

现在我们可以通过标准化 $\bar{X}$ 来构建置信区间：

示例：推导 95% 置信区间

从已知开始： $Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)$

使用 95% 概率： $P(-1.96 < Z < 1.96) = 0.95$

代入 $Z$ 的公式： $P\left(-1.96 < \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} < 1.96\right) = 0.95$

所有部分乘以 $\sigma/\sqrt{n}$ ： $P\left(-1.96 \cdot \frac{\sigma}{\sqrt{n}} < \bar{X} - \mu < 1.96 \cdot \frac{\sigma}{\sqrt{n}}\right) = 0.95$

重新排列以将 $\mu$ 置于中间： $P\left(\bar{X} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}\right) = 0.95$

这可以简洁地写成： $P\left(\bar{X} - 1.96 \cdot \text{SE}(\bar{X}) < \mu < \bar{X} + 1.96 \cdot \text{SE}(\bar{X})\right) = 0.95$

或者更简单： $\mu \in \left[\bar{X} \pm 1.96 \cdot \text{SE}(\bar{X})\right]$ ，概率为 0.95

置信区间公式

定义：均值的置信区间

总体均值 $\mu$ 的 $100(1-\alpha)\%$ 置信区间为：

$\boxed{\bar{X} \pm z^* \times \text{SE}(\bar{X}) = \bar{X} \pm z^* \times \frac{\sigma}{\sqrt{n}}}$

其中 $z^*$ 的选择使得对于 $Z \sim N(0,1)$ ， $P(-z^* < Z < z^*) = 1 - \alpha$ 。

常用置信水平：

置信水平	$\alpha$	$z^*$ 值
90%	0.10	1.645
95%	0.05	1.96
99%	0.01	2.576

当 $\sigma$ 未知时： 用样本标准差 $S$ 替代 $\sigma$ ： $\bar{X} \pm z^* \times \frac{S}{\sqrt{n}}$

HelloTea：计算置信区间

让我们为满意度调查整合所有内容：

示例：HelloTea 95% 置信区间

给定数据：

样本量： $n = 200$ 名学生
样本均值： $\bar{X} = 4.2$ 分
样本标准差： $S = 1.2$ 分
置信水平：95%（所以 $z^* = 1.96$ ）

第 1 步：计算标准误差 $\text{SE}(\bar{X}) = \frac{S}{\sqrt{n}} = \frac{1.2}{\sqrt{200}} = \frac{1.2}{14.142} = 0.0849 \approx 0.085$

第 2 步：计算误差范围 $\text{误差范围} = z^* \times \text{SE}(\bar{X}) = 1.96 \times 0.085 = 0.1666 \approx 0.167$

第 3 步：构建区间

\begin{aligned} \text{95\% CI} &= \bar{X} \pm \text{误差范围}\\ &= 4.2 \pm 0.167\\ &= [4.033, 4.367] \end{aligned}

报告： “我们有 95% 的信心，所有 3,000 名学生的真实平均满意度得分在 4.03 到 4.37 分之间。“

影响置信区间宽度的因素

置信区间的宽度告诉我们估计的精度。较窄的区间意味着我们更精确地确定了 $\mu$ 。

置信区间的宽度为 $2 \times z^* \times \frac{\sigma}{\sqrt{n}}$

因素 1：样本量（ $n$ ）

较大的 $n$ $\Rightarrow$ 较窄的置信区间（更精确）
宽度以 $1/\sqrt{n}$ 的速度减小
要将宽度减半，需要 4 倍的样本量

因素 2：总体变异性（ $\sigma$ ）

较大的 $\sigma$ （变异性更大的总体） $\Rightarrow$ 较宽的置信区间（精度较低）
无法控制——这是总体的属性
更同质的总体给出更精确的估计

因素 3：置信水平

较高的置信水平 $\Rightarrow$ 较宽的置信区间
90% 置信区间： $z^* = 1.645$ （较窄）；95% 置信区间： $z^* = 1.96$ （适中）；99% 置信区间： $z^* = 2.576$ （较宽）
权衡：更高的置信度需要更宽的网

示例：HelloTea：比较不同的置信水平

使用 $\bar{X} = 4.2$ ， $S = 1.2$ ， $n = 200$ ，所以 $\text{SE} = 0.085$ ：

置信水平	计算	区间
90%	$4.2 \pm 1.645(0.085)$	[4.06, 4.34]
95%	$4.2 \pm 1.96(0.085)$	[4.03, 4.37]
99%	$4.2 \pm 2.576(0.085)$	[3.98, 4.42]

观察： 更高的置信度意味着撒更宽的网。我们更有信心区间包含 $\mu$ ，但区间告诉我们 $\mu$ 的位置不那么精确。

5. 总结与批判性反思

我们学到了什么

本章发展了统计估计的数学框架：

估计量： 用于估计未知总体参数的统计量
- 示例： $\bar{X}$ 估计 $\mu$
偏差： 衡量系统误差
- 公式： $\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta$
- 无偏： $E[\hat{\theta}] = \theta$
- 结果： $\bar{X}$ 对 $\mu$ 是无偏的
标准误差： 衡量精度/变异性
- 公式： $\text{SE}(\hat{\theta}) = \sqrt{\text{Var}(\hat{\theta})}$
- 对于 $\bar{X}$ ： $\text{SE}(\bar{X}) = \sigma/\sqrt{n}$
- 较小的标准误差 = 更精确的估计
置信区间： 量化不确定性
- 公式： $\bar{X} \pm z^* \times \text{SE}(\bar{X})$
- 解释：方法以指定概率捕获 $\mu$
- 报告不确定性的实用工具

关键公式总结

概念	公式	HelloTea 值
样本均值	$\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i$	4.2
$\bar{X}$ 的期望	$E[\bar{X}] = \mu$	$\mu$ （无偏）
$\bar{X}$ 的方差	$\text{Var}(\bar{X}) = \frac{\sigma^2}{n}$	$\frac{1.44}{200}$
标准误差	$\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}$	0.085
95% 置信区间	$\bar{X} \pm 1.96 \times \text{SE}(\bar{X})$	[4.03, 4.37]
样本方差	$S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^2$	1.44

假设的批判性检验

在本章中，我们依赖了几个关键假设。让我们批判性地评估它们：

大问题：如果正态性失效怎么办？

预览：中央极限定理来救援

我们担忧的答案来自统计学中最强大的结果之一：

a. 从果园随机抽取 8 个苹果，测量每个苹果的重量（克）。结果如下。 $143 \quad 131 \quad 165 \quad 122 \quad 137 \quad 155 \quad 148 \quad 151$ 计算苹果重量的均值和方差的无偏估计值。(4)

b. 一个总体的均值 $\mu$ 和方差 $\sigma^2$ 均未知。从该总体中抽取一个由 $X_1, X_2, X_3, \ldots, X_8$ 表示的随机样本。解释为什么 $\sum_{i=1}^8 (X_i - \mu)^2$ 不是一个统计量。(1)

c. 已知 $E(S^2) = \sigma^2$ ，其中 $S^2$ 是 $\sigma^2$ 的无偏估计量，且统计量 $Y = \frac{1}{8} \left( \sum_{i=1}^8 X_i^2 - 8\overline{X}^2 \right)$ 用 $\sigma^2$ 表示求 $E(Y)$ 。(2)

d. 因此求 $Y$ 作为 $\sigma^2$ 估计量时的偏差，用 $\sigma^2$ 表示。(2)

a. 一家餐厅声称其汉堡含有 20% 的脂肪。Paul 声称该餐厅汉堡的平均脂肪含量低于 20%。Paul 从该餐厅随机抽取了 50 个汉堡，发现平均脂肪含量为 19.5%，标准差为 1.5%。你可以假设汉堡的脂肪含量服从正态分布。求该餐厅汉堡平均脂肪含量的 90% 置信区间。(4)

b. 说明并给出理由，Paul 应该建议餐厅对其声称的汉堡脂肪含量采取什么行动。(2)

c. 餐厅将汉堡的平均脂肪含量改为 $\mu\%$ ，并将标准差调整为 2%。Paul 从这批新汉堡中抽取了大小为 $n$ 的样本。他用样本均值 $\overline{X}$ 作为 $\mu$ 的估计量。求 $n$ 的最小值，使得 $P(|\overline{X} - \mu| < 0.5) \geq 0.9.$ (4)