在第一章中,我们学习了如何从总体中收集有代表性的样本。我们使用适当的抽样方法,从 HelloTea 的 3,000 名客户中精心挑选了 200 名学生。现在我们面临下一个关键问题:
我们用这些数据做什么?
完成调查后,我们计算出样本均值满意度得分:Xˉ=4.2(0 到 5 分制)。这是我们对所有 3,000 名学生真实平均满意度 μ 的最佳估计。但这个估计有多可靠?
要严格回答这些问题,我们需要一个数学框架。本章发展统计估计的理论,并展示如何使用置信区间来量化不确定性。
在继续之前,我们必须明确说明方法所依赖的假设。
我们用样本均值 Xˉ=4.2 来估计总体均值 μ。这看起来很自然——毕竟,样本的平均值应该能告诉我们总体平均值的某些信息。但我们怎么知道这是一个好的估计?
要回答这个问题,我们需要正式定义”估计量”的含义。
定义:估计量
估计量是一个统计量(样本数据的函数),用于估计未知的总体参数。
点估计量产生单个数值作为估计值。
符号: 我们通常用 θ^ 表示参数 θ 的估计量。
示例:HelloTea 估计量
在我们的满意度调查中:
- 总体参数: μ = 所有 3,000 名学生的真实平均满意度(未知)
- 估计量: Xˉ = 样本均值 = n1∑i=1nXi
- 估计值: xˉ=4.2(我们观察到的具体值)
注意:Xˉ 是一个随机变量(估计量),而 xˉ=4.2 是我们计算出的具体数字。
现在我们有了 μ 的估计量 Xˉ,我们面临两个关键问题:
第一个问题是我们的估计量是否有系统性偏差——它是否倾向于偏高或偏低?
定义:偏差
估计量 θ^ 对参数 θ 的偏差定义为:
Bias(θ^)=E[θ^]−θ
如果 E[θ^]=θ,即 Bias(θ^)=0,则估计量是无偏的。
解释: 无偏估计量在”平均意义上是正确的”——如果我们无限次重复抽样过程,所有估计值的平均值将等于真实参数。
让我们检查 Xˉ 是否是 μ 的无偏估计量。
问题: E[Xˉ]=μ 吗?
要回答这个问题,我们需要计算 E[Xˉ]。线性规则在随机变量的组合讲义中已经介绍过,所以我们这里专注于它们在估计中的应用。
现在我们可以检查 Xˉ 是否无偏:
示例:样本均值是无偏的
计算:
E[Xˉ]=E[2001i=1∑200Xi]=2001E[i=1∑200Xi]=2001i=1∑200E[Xi]=2001i=1∑200μ=μ
结论: E[Xˉ]=μ,所以样本均值是总体均值的无偏估计量!
解释: 平均而言(在多次重复抽样中),Xˉ 等于真实均值 μ。我们的具体观察值 xˉ=4.2 可能高于或低于 μ,但方法本身没有系统性偏差。
并非所有自然的估计量都是无偏的。让我们检验样本方差。
示例:有偏的样本方差
假设我们想估计总体方差 σ2。自然的估计量可能是:
自然估计量:n1∑i=1n(Xi−Xˉ)2
这只是与样本均值的平均平方偏差。它是否无偏?
让我们计算(为简单起见,我们展示关键思路):
可以证明(请参阅挑战练习了解详情):
E[n1∑i=1n(Xi−Xˉ)2]=nn−1σ2
发现: 这不等于 σ2!偏差为:
Bias=nn−1σ2−σ2=−n1σ2<0
自然估计量系统性地低估了真实方差。
为什么?
当我们使用 Xˉ(从相同数据计算得出)时,我们人为地使偏差变小。样本均值 Xˉ 使 ∑(Xi−Xˉ)2 最小化,因此使用它会使方差看起来比实际更小。
为了修正这个偏差,我们使用修正后的公式:
定义:无偏样本方差
样本方差(σ2 的无偏估计量)是:
S2=n−11∑i=1n(Xi−Xˉ)2
这个修正因子 (n−1) 称为自由度。
验证:
E[S2]=E[n−11∑i=1n(Xi−Xˉ)2]=n−1n⋅nn−1σ2=σ2✓
示例:HelloTea:使用正确的公式
在我们的 n=200 名学生的满意度调查中:
- 如果我们计算出 ∑i=1200(Xi−4.2)2=288
- 错误(有偏): 方差 ≈200288=1.44
- 正确(无偏): S2=199288≈1.447
这里的差异很小,但原则很重要:样本方差始终使用 n−1!
我们已经确定 Xˉ 是无偏的(E[Xˉ]=μ),这是好消息!但无偏性并不能说明全部问题。考虑这个思想实验:
这种变异性由标准误差捕获。
定义:标准误差
估计量 θ^ 的标准误差是其抽样分布的标准差:
SE(θ^)=Var(θ^)
解释: 较小的标准误差意味着更精确(变异性更小)的估计量。
在独立抽样下的样本均值:
Var(Xˉ)=nσ2⇒SE(Xˉ)=nσ.
公式 SE(Xˉ)=nσ 揭示了重要的见解:
让我们将其应用于满意度调查:
示例:HelloTea 标准误差
场景: 根据历史数据或试点研究,假设满意度评分的标准差 σ=1.2 分(0-5 分制)。
我们的样本: n=200 名学生,Xˉ=4.2
计算标准误差:
SE(Xˉ)=nσ=2001.2=14.1421.2≈0.0849
解释: 样本均值 Xˉ 通常与真实均值 μ 相差约 ±0.085 分。
如果我们用不同的 200 名学生随机样本多次重复调查,大约 68% 的样本均值会落在 μ±0.085 范围内。
在实践中,我们通常不知道总体标准差 σ。我们该怎么办?
注意: 对于大样本(n≥30),使用 σ 和 S 之间的差异可以忽略不计。
到目前为止,我们已经学习了:
- Xˉ=4.2 是 μ 的无偏估计(没有系统误差)
- SE(Xˉ)≈0.085 告诉我们典型的变异性
但当我们向 HelloTea 的经理报告时,说”平均满意度是 4.2,标准误差为 0.085”并不直观。更好的方法是给出 μ 的合理值范围。
要构建有意义的区间,我们需要理解 Xˉ 的分布——不仅仅是它的均值和方差,而是它的整个概率分布。这就是我们的正态性假设变得至关重要的地方!
对于置信区间,我们使用关键结果:
Xˉ∼N(μ,nσ2)
在独立正态抽样下。
现在我们可以通过标准化 Xˉ 来构建置信区间:
示例:推导 95% 置信区间
从已知开始:
Z=σ/nXˉ−μ∼N(0,1)
使用 95% 概率:
P(−1.96<Z<1.96)=0.95
代入 Z 的公式:
P(−1.96<σ/nXˉ−μ<1.96)=0.95
所有部分乘以 σ/n:
P(−1.96⋅nσ<Xˉ−μ<1.96⋅nσ)=0.95
重新排列以将 μ 置于中间:
P(Xˉ−1.96⋅nσ<μ<Xˉ+1.96⋅nσ)=0.95
这可以简洁地写成:
P(Xˉ−1.96⋅SE(Xˉ)<μ<Xˉ+1.96⋅SE(Xˉ))=0.95
或者更简单:μ∈[Xˉ±1.96⋅SE(Xˉ)],概率为 0.95
定义:均值的置信区间
总体均值 μ 的 100(1−α)% 置信区间为:
Xˉ±z∗×SE(Xˉ)=Xˉ±z∗×nσ
其中 z∗ 的选择使得对于 Z∼N(0,1),P(−z∗<Z<z∗)=1−α。
常用置信水平:
| 置信水平 | α | z∗ 值 |
|---|
| 90% | 0.10 | 1.645 |
| 95% | 0.05 | 1.96 |
| 99% | 0.01 | 2.576 |
当 σ 未知时: 用样本标准差 S 替代 σ:
Xˉ±z∗×nS
让我们为满意度调查整合所有内容:
示例:HelloTea 95% 置信区间
给定数据:
- 样本量:n=200 名学生
- 样本均值:Xˉ=4.2 分
- 样本标准差:S=1.2 分
- 置信水平:95%(所以 z∗=1.96)
第 1 步:计算标准误差
SE(Xˉ)=nS=2001.2=14.1421.2=0.0849≈0.085
第 2 步:计算误差范围
误差范围=z∗×SE(Xˉ)=1.96×0.085=0.1666≈0.167
第 3 步:构建区间
95% CI=Xˉ±误差范围=4.2±0.167=[4.033,4.367]
报告: “我们有 95% 的信心,所有 3,000 名学生的真实平均满意度得分在 4.03 到 4.37 分之间。“
置信区间的宽度告诉我们估计的精度。较窄的区间意味着我们更精确地确定了 μ。
示例:HelloTea:比较不同的置信水平
使用 Xˉ=4.2,S=1.2,n=200,所以 SE=0.085:
| 置信水平 | 计算 | 区间 |
|---|
| 90% | 4.2±1.645(0.085) | [4.06, 4.34] |
| 95% | 4.2±1.96(0.085) | [4.03, 4.37] |
| 99% | 4.2±2.576(0.085) | [3.98, 4.42] |
观察: 更高的置信度意味着撒更宽的网。我们更有信心区间包含 μ,但区间告诉我们 μ 的位置不那么精确。
本章发展了统计估计的数学框架:
| 概念 | 公式 | HelloTea 值 |
|---|
| 样本均值 | Xˉ=n1∑i=1nXi | 4.2 |
| Xˉ 的期望 | E[Xˉ]=μ | μ(无偏) |
| Xˉ 的方差 | Var(Xˉ)=nσ2 | 2001.44 |
| 标准误差 | SE(Xˉ)=nσ | 0.085 |
| 95% 置信区间 | Xˉ±1.96×SE(Xˉ) | [4.03, 4.37] |
| 样本方差 | S2=n−11∑i=1n(Xi−Xˉ)2 | 1.44 |
在本章中,我们依赖了几个关键假设。让我们批判性地评估它们:
我们担忧的答案来自统计学中最强大的结果之一: