跳转到内容

S3 第三章:估计与置信区间

从数据到决策:理解样本能告诉我们什么

Section titled “从数据到决策:理解样本能告诉我们什么”

在第一章中,我们学习了如何从总体中收集有代表性的样本。我们使用适当的抽样方法,从 HelloTea 的 3,000 名客户中精心挑选了 200 名学生。现在我们面临下一个关键问题:

我们用这些数据做什么?

完成调查后,我们计算出样本均值满意度得分:Xˉ=4.2\bar{X} = 4.2(0 到 5 分制)。这是我们对所有 3,000 名学生真实平均满意度 μ\mu 的最佳估计。但这个估计有多可靠?

要严格回答这些问题,我们需要一个数学框架。本章发展统计估计的理论,并展示如何使用置信区间来量化不确定性。

在继续之前,我们必须明确说明方法所依赖的假设。

我们用样本均值 Xˉ=4.2\bar{X} = 4.2 来估计总体均值 μ\mu。这看起来很自然——毕竟,样本的平均值应该能告诉我们总体平均值的某些信息。但我们怎么知道这是一个好的估计?

要回答这个问题,我们需要正式定义”估计量”的含义。

定义:估计量

估计量是一个统计量(样本数据的函数),用于估计未知的总体参数。

点估计量产生单个数值作为估计值。

符号: 我们通常用 θ^\hat{\theta} 表示参数 θ\theta 的估计量。

示例:HelloTea 估计量

在我们的满意度调查中:

  • 总体参数: μ\mu = 所有 3,000 名学生的真实平均满意度(未知)
  • 估计量: Xˉ\bar{X} = 样本均值 = 1ni=1nXi\frac{1}{n}\sum_{i=1}^{n} X_i
  • 估计值: xˉ=4.2\bar{x} = 4.2(我们观察到的具体值)

注意:Xˉ\bar{X} 是一个随机变量(估计量),而 xˉ=4.2\bar{x} = 4.2 是我们计算出的具体数字。

现在我们有了 μ\mu 的估计量 Xˉ\bar{X},我们面临两个关键问题:

2. 偏差:我们是否系统性地错误?

Section titled “2. 偏差:我们是否系统性地错误?”

第一个问题是我们的估计量是否有系统性偏差——它是否倾向于偏高或偏低?

定义:偏差

估计量 θ^\hat{\theta} 对参数 θ\theta偏差定义为: Bias(θ^)=E[θ^]θ\text{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta

如果 E[θ^]=θE[\hat{\theta}] = \theta,即 Bias(θ^)=0\text{Bias}(\hat{\theta}) = 0,则估计量是无偏的

解释: 无偏估计量在”平均意义上是正确的”——如果我们无限次重复抽样过程,所有估计值的平均值将等于真实参数。

让我们检查 Xˉ\bar{X} 是否是 μ\mu 的无偏估计量。

问题: E[Xˉ]=μE[\bar{X}] = \mu 吗?

要回答这个问题,我们需要计算 E[Xˉ]E[\bar{X}]。线性规则在随机变量的组合讲义中已经介绍过,所以我们这里专注于它们在估计中的应用。

现在我们可以检查 Xˉ\bar{X} 是否无偏:

示例:样本均值是无偏的

计算:

E[Xˉ]=E[1200i=1200Xi]=1200E[i=1200Xi]=1200i=1200E[Xi]=1200i=1200μ=μ\begin{aligned} E[\bar{X}] &= E\left[\frac{1}{200}\sum_{i=1}^{200} X_i\right] = \frac{1}{200} E\left[\sum_{i=1}^{200} X_i\right] = \frac{1}{200} \sum_{i=1}^{200} E[X_i] = \frac{1}{200} \sum_{i=1}^{200} \mu = \mu \end{aligned}

结论: E[Xˉ]=μE[\bar{X}] = \mu,所以样本均值是总体均值的无偏估计量

解释: 平均而言(在多次重复抽样中),Xˉ\bar{X} 等于真实均值 μ\mu。我们的具体观察值 xˉ=4.2\bar{x} = 4.2 可能高于或低于 μ\mu,但方法本身没有系统性偏差。

并非所有自然的估计量都是无偏的。让我们检验样本方差。

示例:有偏的样本方差

假设我们想估计总体方差 σ2\sigma^2。自然的估计量可能是: 自然估计量:1ni=1n(XiXˉ)2\text{自然估计量:} \frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2

这只是与样本均值的平均平方偏差。它是否无偏?

让我们计算(为简单起见,我们展示关键思路):

可以证明(请参阅挑战练习了解详情): E[1ni=1n(XiXˉ)2]=n1nσ2E\left[\frac{1}{n}\sum_{i=1}^{n}(X_i - \bar{X})^2\right] = \frac{n-1}{n}\sigma^2

发现: 这不等于 σ2\sigma^2!偏差为: Bias=n1nσ2σ2=1nσ2<0\text{Bias} = \frac{n-1}{n}\sigma^2 - \sigma^2 = -\frac{1}{n}\sigma^2 < 0

自然估计量系统性地低估了真实方差。

为什么?

当我们使用 Xˉ\bar{X}(从相同数据计算得出)时,我们人为地使偏差变小。样本均值 Xˉ\bar{X} 使 (XiXˉ)2\sum(X_i - \bar{X})^2 最小化,因此使用它会使方差看起来比实际更小。

为了修正这个偏差,我们使用修正后的公式:

定义:无偏样本方差

样本方差σ2\sigma^2 的无偏估计量)是: S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2

这个修正因子 (n1)(n-1) 称为自由度

验证: E[S2]=E[1n1i=1n(XiXˉ)2]=nn1n1nσ2=σ2E[S^2] = E\left[\frac{1}{n-1}\sum_{i=1}^{n}(X_i - \bar{X})^2\right] = \frac{n}{n-1} \cdot \frac{n-1}{n}\sigma^2 = \sigma^2 \checkmark

示例:HelloTea:使用正确的公式

在我们的 n=200n = 200 名学生的满意度调查中:

  • 如果我们计算出 i=1200(Xi4.2)2=288\sum_{i=1}^{200}(X_i - 4.2)^2 = 288
  • 错误(有偏): 方差 288200=1.44\approx \frac{288}{200} = 1.44
  • 正确(无偏): S2=2881991.447S^2 = \frac{288}{199} \approx 1.447

这里的差异很小,但原则很重要:样本方差始终使用 n1n-1

我们已经确定 Xˉ\bar{X} 是无偏的(E[Xˉ]=μE[\bar{X}] = \mu),这是好消息!但无偏性并不能说明全部问题。考虑这个思想实验:

这种变异性由标准误差捕获。

定义:标准误差

估计量 θ^\hat{\theta}标准误差是其抽样分布的标准差: SE(θ^)=Var(θ^)\text{SE}(\hat{\theta}) = \sqrt{\text{Var}(\hat{\theta})}

解释: 较小的标准误差意味着更精确(变异性更小)的估计量。

在独立抽样下的样本均值:

Var(Xˉ)=σ2nSE(Xˉ)=σn.\text{Var}(\bar{X})=\frac{\sigma^2}{n} \quad\Rightarrow\quad \boxed{\text{SE}(\bar{X})=\frac{\sigma}{\sqrt{n}}}.

公式 SE(Xˉ)=σn\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}} 揭示了重要的见解:

让我们将其应用于满意度调查:

示例:HelloTea 标准误差

场景: 根据历史数据或试点研究,假设满意度评分的标准差 σ=1.2\sigma = 1.2 分(0-5 分制)。

我们的样本: n=200n = 200 名学生,Xˉ=4.2\bar{X} = 4.2

计算标准误差: SE(Xˉ)=σn=1.2200=1.214.1420.0849\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}} = \frac{1.2}{\sqrt{200}} = \frac{1.2}{14.142} \approx 0.0849

解释: 样本均值 Xˉ\bar{X} 通常与真实均值 μ\mu 相差约 ±0.085\pm 0.085 分。

如果我们用不同的 200 名学生随机样本多次重复调查,大约 68% 的样本均值会落在 μ±0.085\mu \pm 0.085 范围内。

在实践中,我们通常不知道总体标准差 σ\sigma。我们该怎么办?

注意: 对于大样本(n30n \geq 30),使用 σ\sigmaSS 之间的差异可以忽略不计。

到目前为止,我们已经学习了:

  • Xˉ=4.2\bar{X} = 4.2μ\mu 的无偏估计(没有系统误差)
  • SE(Xˉ)0.085\text{SE}(\bar{X}) \approx 0.085 告诉我们典型的变异性

但当我们向 HelloTea 的经理报告时,说”平均满意度是 4.2,标准误差为 0.085”并不直观。更好的方法是给出 μ\mu合理值范围

要构建有意义的区间,我们需要理解 Xˉ\bar{X}分布——不仅仅是它的均值和方差,而是它的整个概率分布。这就是我们的正态性假设变得至关重要的地方!

对于置信区间,我们使用关键结果:

XˉN(μ,σ2n)\bar{X} \sim N\left(\mu, \frac{\sigma^2}{n}\right)

在独立正态抽样下。

现在我们可以通过标准化 Xˉ\bar{X} 来构建置信区间:

示例:推导 95% 置信区间

从已知开始: Z=Xˉμσ/nN(0,1)Z = \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} \sim N(0,1)

使用 95% 概率: P(1.96<Z<1.96)=0.95P(-1.96 < Z < 1.96) = 0.95

代入 ZZ 的公式: P(1.96<Xˉμσ/n<1.96)=0.95P\left(-1.96 < \frac{\bar{X} - \mu}{\sigma/\sqrt{n}} < 1.96\right) = 0.95

所有部分乘以 σ/n\sigma/\sqrt{n} P(1.96σn<Xˉμ<1.96σn)=0.95P\left(-1.96 \cdot \frac{\sigma}{\sqrt{n}} < \bar{X} - \mu < 1.96 \cdot \frac{\sigma}{\sqrt{n}}\right) = 0.95

重新排列以将 μ\mu 置于中间: P(Xˉ1.96σn<μ<Xˉ+1.96σn)=0.95P\left(\bar{X} - 1.96 \cdot \frac{\sigma}{\sqrt{n}} < \mu < \bar{X} + 1.96 \cdot \frac{\sigma}{\sqrt{n}}\right) = 0.95

这可以简洁地写成: P(Xˉ1.96SE(Xˉ)<μ<Xˉ+1.96SE(Xˉ))=0.95P\left(\bar{X} - 1.96 \cdot \text{SE}(\bar{X}) < \mu < \bar{X} + 1.96 \cdot \text{SE}(\bar{X})\right) = 0.95

或者更简单:μ[Xˉ±1.96SE(Xˉ)]\mu \in \left[\bar{X} \pm 1.96 \cdot \text{SE}(\bar{X})\right],概率为 0.95

定义:均值的置信区间

总体均值 μ\mu100(1α)%100(1-\alpha)\% 置信区间为:

Xˉ±z×SE(Xˉ)=Xˉ±z×σn\boxed{\bar{X} \pm z^* \times \text{SE}(\bar{X}) = \bar{X} \pm z^* \times \frac{\sigma}{\sqrt{n}}}

其中 zz^* 的选择使得对于 ZN(0,1)Z \sim N(0,1)P(z<Z<z)=1αP(-z^* < Z < z^*) = 1 - \alpha

常用置信水平:

置信水平α\alphazz^*
90%0.101.645
95%0.051.96
99%0.012.576

σ\sigma 未知时: 用样本标准差 SS 替代 σ\sigmaXˉ±z×Sn\bar{X} \pm z^* \times \frac{S}{\sqrt{n}}

让我们为满意度调查整合所有内容:

示例:HelloTea 95% 置信区间

给定数据:

  • 样本量:n=200n = 200 名学生
  • 样本均值:Xˉ=4.2\bar{X} = 4.2
  • 样本标准差:S=1.2S = 1.2
  • 置信水平:95%(所以 z=1.96z^* = 1.96

第 1 步:计算标准误差 SE(Xˉ)=Sn=1.2200=1.214.142=0.08490.085\text{SE}(\bar{X}) = \frac{S}{\sqrt{n}} = \frac{1.2}{\sqrt{200}} = \frac{1.2}{14.142} = 0.0849 \approx 0.085

第 2 步:计算误差范围 误差范围=z×SE(Xˉ)=1.96×0.085=0.16660.167\text{误差范围} = z^* \times \text{SE}(\bar{X}) = 1.96 \times 0.085 = 0.1666 \approx 0.167

第 3 步:构建区间

95% CI=Xˉ±误差范围=4.2±0.167=[4.033,4.367]\begin{aligned} \text{95\% CI} &= \bar{X} \pm \text{误差范围}\\ &= 4.2 \pm 0.167\\ &= [4.033, 4.367] \end{aligned}

报告: “我们有 95% 的信心,所有 3,000 名学生的真实平均满意度得分在 4.03 到 4.37 分之间。“

置信区间的宽度告诉我们估计的精度。较窄的区间意味着我们更精确地确定了 μ\mu

示例:HelloTea:比较不同的置信水平

使用 Xˉ=4.2\bar{X} = 4.2S=1.2S = 1.2n=200n = 200,所以 SE=0.085\text{SE} = 0.085

置信水平计算区间
90%4.2±1.645(0.085)4.2 \pm 1.645(0.085)[4.06, 4.34]
95%4.2±1.96(0.085)4.2 \pm 1.96(0.085)[4.03, 4.37]
99%4.2±2.576(0.085)4.2 \pm 2.576(0.085)[3.98, 4.42]

观察: 更高的置信度意味着撒更宽的网。我们更有信心区间包含 μ\mu,但区间告诉我们 μ\mu 的位置不那么精确。

本章发展了统计估计的数学框架:

概念公式HelloTea 值
样本均值Xˉ=1ni=1nXi\bar{X} = \frac{1}{n}\sum_{i=1}^{n}X_i4.2
Xˉ\bar{X} 的期望E[Xˉ]=μE[\bar{X}] = \muμ\mu(无偏)
Xˉ\bar{X} 的方差Var(Xˉ)=σ2n\text{Var}(\bar{X}) = \frac{\sigma^2}{n}1.44200\frac{1.44}{200}
标准误差SE(Xˉ)=σn\text{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}0.085
95% 置信区间Xˉ±1.96×SE(Xˉ)\bar{X} \pm 1.96 \times \text{SE}(\bar{X})[4.03, 4.37]
样本方差S2=1n1i=1n(XiXˉ)2S^2 = \frac{1}{n-1}\sum_{i=1}^{n}(X_i-\bar{X})^21.44

在本章中,我们依赖了几个关键假设。让我们批判性地评估它们:

大问题:如果正态性失效怎么办?

Section titled “大问题:如果正态性失效怎么办?”

我们担忧的答案来自统计学中最强大的结果之一: