S3 第七章：国际考试复习

如何使用这份复习资料

这份讲义是 S3 各主题的高产出复习指南：抽样 $\rightarrow$ 随机变量的组合 $\rightarrow$ 估计与置信区间 $\rightarrow$ 中心极限定理与均值检验 $\rightarrow$ 相关性 $\rightarrow$ $\chi^2$ 检验。

贯穿案例：HelloTea

我们将持续使用 HelloTea 来串联各知识点：

总体：所有学生（例如 3000 人）。
样本：例如通过某种抽样方法选取的 $n=200$ 名学生。
数据类型：评分（1—5）、饮品选择（茶/咖啡/热巧克力）、屏幕时间等。

第一章复习：抽样方法（获取优质数据）

核心定义

定义：总体、样本、抽样框

总体（Population）：感兴趣的完整群体。
样本（Sample）：从总体中选取的观测值。
抽样框（Sampling Frame）：你实际可以从中抽样的清单。

必须掌握的四种方法

方法	随机？	如何操作	主要风险 / 局限
简单随机抽样（SRS）	是	使用随机数生成器 / 随机数表选取 $n$ 个编号	可能很耗时；可能偶然遗漏小子群
系统抽样（Systematic）	部分	选随机起点，然后每隔 $k$ 个取一个	周期性（清单中存在隐藏模式）
分层抽样（Stratified）	是（层内）	分成若干层，每层内做简单随机抽样	需要事先知道分层信息；步骤较多
配额抽样（Quota）	否	设定配额，然后在各配额内便利抽样	选择偏差；无法计算有效的抽样误差 / 推断保证

常见考试陷阱（来自考官报告）

遗漏编号步骤：在使用随机数之前，你必须明确说明将”对抽样框进行编号/标记（例如从 1 到 $N$ ）”。
系统抽样错误：如果周期为 $k$ ，学生常常忘记不能选取两个相邻项。
模糊表述：说某个方法”更准确”或”更有代表性”通常不得分。使用精确术语，如”反映总体结构”（分层抽样）或”给每个个体等概率的选取机会”（简单随机抽样）。
配额抽样 vs 分层抽样：配额抽样存在访问员偏差（interviewer bias）（由选择调查对象的人造成），这意味着无法计算有效的抽样误差。

第二章复习：随机变量的组合

期望与方差的核心规则

最大的考试陷阱： $3X$ vs $X_1+X_2+X_3$

场景	记号	方差
”一个随机选取的袋子重量的 3 倍"	$3X$	$\mathrm{Var}(3X) = 3^2 \mathrm{Var}(X) = \mathbf{9\mathrm{Var}(X)}$
"3 个随机选取的袋子的总重量”	$X_1 + X_2 + X_3$	$\mathrm{Var}(X_1+X_2+X_3) = \mathbf{3\mathrm{Var}(X)}$

常见考试陷阱（来自考官报告）

方差相减：学生经常写 $\mathrm{Var}(X-Y) = \mathrm{Var}(X) - \mathrm{Var}(Y)$ 。这是错误的！对于独立变量，方差总是相加： $\mathrm{Var}(X-Y) = \mathrm{Var}(X) + \mathrm{Var}(Y)$ 。
变量的平均：要找 5 个观测值的样本均值 $A = \frac{X_1+...+X_5}{5}$ 的方差，你必须将分母平方： $\mathrm{Var}(A) = \frac{5\mathrm{Var}(X)}{25} = \frac{\mathrm{Var}(X)}{5}$ 。很多人错误地除以 5 而不是 25。
无方向的差值：如果题目要求重量”差值”大于 5g 的概率，你必须计算 $P(|X-Y| > 5) = P(X-Y > 5) + P(X-Y < -5)$ （双尾）。
标准化符号错误：当将标准化公式 $Z = \frac{x-\mu}{\sigma}$ 等于临界值（例如 1.2816）时，确保符号匹配。如果概率区域暗示 $x$ 低于均值， $Z$ 必须为负！

第三章复习：估计、偏差、标准误、置信区间

三个层次：参数、统计量、观测值

偏差

定义：偏差（Bias）

\mathrm{Bias}(\hat{\theta}) = E[\hat{\theta}] - \theta.

标准误（Standard Error, SE）

定义：标准误

\mathrm{SE}(\hat{\theta}) = \sqrt{\mathrm{Var}(\hat{\theta})}.

置信区间（Confidence Interval, CI）

定义：一般形式

\text{估计值} \pm (\text{临界值}) \times (\text{标准误}).

常见考试陷阱（来自考官报告）

错误解读：“有 95% 的概率 $\mu$ 在这个区间内”（表述不正确）。应该说：“我们有 95% 的把握认为真实的总体均值在这个区间内。”
混淆标准差和标准误：标准差描述单个个体；标准误描述估计量的变异性。计算标准误时别忘了除以 $\sqrt{n}$ ！
假设的符号：假设中始终使用总体参数（如 $\mu$ ），不要使用样本统计量（ $\bar{x}$ ）。同时，清楚地定义下标（如 $\mu_A$ vs $\mu_B$ ）。
置信区间的二项过程：如果要求 $n$ 个计算出的置信区间中有 $Y$ 个包含 $\mu$ 的概率，你必须使用二项分布 $Y \sim B(n, \text{置信水平})$ 。

第四章复习：中心极限定理与均值推断

中心极限定理（CLT）的实际含义

定理：中心极限定理（可用形式） 如果 $X_1,\ldots,X_n$ 为独立同分布，均值为 $\mu$ ，方差为 $\sigma^2<\infty$ ，则对于大的 $n$ ，

\bar{X} \approx N\!\left(\mu,\frac{\sigma^2}{n}\right).

单样本均值检验（大样本 $z$ 检验思路）

检验 $H_0:\mu=\mu_0$ ，

Z=\frac{\bar{x}-\mu_0}{S/\sqrt{n}} \approx N(0,1)\ \text{在 }H_0\text{ 下}\quad（n\text{ 较大时}）。

通过临界值或 $p$ 值做出决策。

两均值之差（独立样本）

如果两个独立的大样本：

\bar{X}-\bar{Y} \approx N\!\left(\mu_X-\mu_Y,\ \frac{\sigma_X^2}{n_X}+\frac{\sigma_Y^2}{n_Y}\right).

使用样本标准差估计标准误。

常见考试陷阱（来自考官报告）

解释 CLT：很多学生说”样本服从正态分布”而失分。你必须说”样本均值近似服从正态分布”。
合并样本：当要求将两个样本视为一个合并样本时，不要计算加权标准差。求新的总体均值，并为新的总样本量 $n_1+n_2$ 计算标准误。
在小 $n$ 时使用 CLT，而总体明显偏态/重尾。
**忘记”独立样本”**用于两样本公式。
混淆单尾和双尾临界区域。

第五章复习：相关性与秩相关

PMCC（皮尔逊）回顾

给定配对数据 $(x_i,y_i)$ ， $i=1,\ldots,n$ ，

r=\frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}},\quad S_{xy}=\sum xy-\frac{(\sum x)(\sum y)}{n}.

PMCC 检验（查表法）

$H_0:\rho=0$
将 $|r|$ 与 $(n,\alpha)$ 对应的临界值比较。

斯皮尔曼秩相关

在以下情况使用秩：

关系是单调的但非线性的，或数据是有序的，或离群值破坏了皮尔逊方法。

如果没有并列秩，简捷公式：

r_s = 1-\frac{6\sum d^2}{n(n^2-1)}.

使用斯皮尔曼临界值表检验 $r_s$ 。

常见考试陷阱（来自考官报告）

并列秩：如果存在并列秩，你必须对秩使用完整的 PMCC 公式。 $1-\frac{6\sum d^2}{n(n^2-1)}$ 简捷公式仅在没有并列时有效！
字母编码：当给出字母（如等级 A、B、C）时，学生有时按字母顺序排秩，而不是按实际值/顺序。
假设：始终用 $\rho$ 或 $\rho_s$ 表述假设。不要使用 $r$ 或仅用文字陈述。
结合情境的结论：仅说”存在相关性”是不够的。你必须包含方向和情境（例如”有证据表明年龄与价格之间存在正相关”）。
非线性关系：如果 PMCC 检验显示无显著相关，但斯皮尔曼检验显示显著相关，则强烈表明存在非线性关系。

第六章复习： $\chi^2$ 检验（拟合优度与独立性）

$\chi^2$ 统量（两种检验结构相同）

\chi^2=\sum \frac{(O-E)^2}{E}.

拟合优度检验（GOF）

适用场景：一个分类变量，检验指定的分布/模型。
假设： $H_0$ ：模型拟合； $H_1$ ：模型不拟合。
自由度： $df=k-1-m$ ，其中 $m=$ 从数据中估计的参数个数。

列联表中的独立性

适用场景：两个分类变量；检验关联性。
期望频率： $E_{ij}=\dfrac{(\text{行合计})(\text{列合计})}{\text{总计}}$ 。
自由度： $(r-1)(c-1)$ 。

结论句模板

常见考试陷阱（来自考官报告）

频率而非百分比：卡方检验必须使用原始频率（计数）。如果给出百分比，必须先转换回频率。
估计参数的假设：如果你估计了一个参数（如 $\lambda=3.5$ ），不要在假设中包含 3.5。写” $H_0$ ：泊松分布是合适的模型”（而不是”Po(3.5)”）。
自由度（ $m$ ）：学生在计算拟合优度检验的 $df = k - 1 - m$ 时常常忘记减去 $m$ （估计参数的个数）。
正确合并：合并单元格是为了确保期望频率 $\ge 5$ 。不要仅根据观测频率合并！

单页公式表（学生应记忆）

期望： $E(aX \pm bY)=aE(X) \pm bE(Y)$
方差（独立）： $\mathrm{Var}(aX \pm bY)=a^2\mathrm{Var}(X) + b^2\mathrm{Var}(Y)$
多个变量： $\mathrm{Var}(X_1+..+X_n)=n\mathrm{Var}(X)$
样本均值： $\bar{X}=\dfrac{1}{n}\sum X_i$ ， $\mathrm{SE}(\bar{X})=\dfrac{\sigma}{\sqrt{n}}$
样本方差： $S^2=\dfrac{1}{n-1}\sum (X_i-\bar{X})^2$
均值置信区间（大 $n$ ）： $\bar{x}\pm z^*\dfrac{S}{\sqrt{n}}$
CLT： $\bar{X}\approx N\!\left(\mu,\dfrac{\sigma^2}{n}\right)$
PMCC： $r=\dfrac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}$
斯皮尔曼（无并列）： $r_s=1-\dfrac{6\sum d^2}{n(n^2-1)}$
$\chi^2$ ： $\chi^2=\sum\dfrac{(O-E)^2}{E}$
拟合优度自由度： $k-1-m$ ，独立性自由度： $(r-1)(c-1)$

S3 第七章：国际考试复习

如何使用这份复习资料

贯穿案例：HelloTea

第一章复习：抽样方法（获取优质数据）

核心定义

必须掌握的四种方法

常见考试陷阱（来自考官报告）

第二章复习：随机变量的组合

期望与方差的核心规则

最大的考试陷阱：3X3X3X vs X1+X2+X3X_1+X_2+X_3X1​+X2​+X3​

常见考试陷阱（来自考官报告）

第三章复习：估计、偏差、标准误、置信区间

三个层次：参数、统计量、观测值

偏差

标准误（Standard Error, SE）

置信区间（Confidence Interval, CI）

常见考试陷阱（来自考官报告）

第四章复习：中心极限定理与均值推断

中心极限定理（CLT）的实际含义

单样本均值检验（大样本 zzz 检验思路）

两均值之差（独立样本）

常见考试陷阱（来自考官报告）

第五章复习：相关性与秩相关

PMCC（皮尔逊）回顾

PMCC 检验（查表法）

斯皮尔曼秩相关

常见考试陷阱（来自考官报告）

第六章复习：χ2\chi^2χ2 检验（拟合优度与独立性）

χ2\chi^2χ2 统量（两种检验结构相同）

拟合优度检验（GOF）

列联表中的独立性

结论句模板

常见考试陷阱（来自考官报告）

单页公式表（学生应记忆）

综合练习（不提供解答）

最大的考试陷阱： $3X$ vs $X_1+X_2+X_3$

单样本均值检验（大样本 $z$ 检验思路）

第六章复习： $\chi^2$ 检验（拟合优度与独立性）

$\chi^2$ 统量（两种检验结构相同）