S3 第五章：相关性与秩

引言：屏幕时间会毁掉你的睡眠吗？

积矩相关系数（PMCC）回顾

线性关联的度量

回顾 S1 的内容：为了度量两个变量 $x$ 和 $y$ 之间线性关系的强度，我们使用积矩相关系数（Product Moment Correlation Coefficient, PMCC），记作 $r$ 。

定义：皮尔逊相关系数（Pearson’s Correlation Coefficient） 样本相关系数的计算公式为：

r = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}

其中：

$S_{xy} = \sum(x_i - \bar{x})(y_i - \bar{y}) = \sum xy - \frac{(\sum x)(\sum y)}{n}$
$S_{xx} = \sum(x_i - \bar{x})^2$
$S_{yy} = \sum(y_i - \bar{y})^2$

让我们从头练习计算 PMCC。假设有 $n=5$ 名学生，记录他们的学习时长（ $x$ ）和考试成绩（ $y$ ）：

学生	1	2	3	4	5
学习时长 ( $x$ )	2	3	5	6	9
考试成绩 ( $y$ )	50	60	70	80	90

任务： 计算这组数据的积矩相关系数（PMCC）。（建议先自己尝试，再查看附录中的解答！）

关键问题

假设我们在屏幕时间研究中计算出 $r = -0.4$ （ $n=10$ ）。这表明存在中等强度的负相关关系。

但是！ 即使现实中完全不存在关系，随机抽样也可能恰好得到 10 名手机使用越多睡眠越差的学生。

问题： $r$ 需要多强，我们才能有信心地说这不仅仅是运气？


原假设（ $H_0$ ）：	$\rho = 0$ （总体中不存在相关性）
备择假设（ $H_1$ ）：	$\rho \neq 0$ （存在相关性——双尾检验）
	$\rho > 0$ （正相关——单尾检验）
	$\rho < 0$ （负相关——单尾检验）

当线性关系失效时：秩相关

PMCC 的局限性

PMCC（ $r$ ）功能强大，但有两个主要弱点。让我们通过实例来探究。

假设我们记录一家公司偏离最优价格的程度（ $x$ ）及其利润损失（ $y$ ）：

偏差 ( $x$ )	-2	-1	0	1	2
损失 ( $y$ )	4	1	0	1	4

完美非线性关系：y = x² 且 r = 0

显然， $y = x^2$ 。存在完美的确定性关系。

任务： 计算这组数据的 PMCC。你得到什么结果？为什么？（先自己试试，然后查看附录！）

斯皮尔曼秩相关系数（Spearman’s Rank Correlation Coefficient）

定义

斯皮尔曼秩相关系数（记作 $r_s$ ）就是对数据的秩（而非数据本身）计算 PMCC。

将 $x$ 值从 1 到 $n$ 排秩（例如 $1=$ 最小， $n=$ 最大）。
将 $y$ 值从 1 到 $n$ 排秩。
用这些秩计算皮尔逊 $r$ 。

简捷公式

如果没有并列秩（没有两个值相同），通过代数推导可以得到一个更简单的公式：

处理并列秩

如果两个或多个值相同（例如两名学生都得了 85 分），我们给他们分配他们所占位置的平均秩。

例如：如果第 3 名和第 4 名的成绩相同，则两人都获得秩 $\frac{3+4}{2} = 3.5$ 。下一个最好的成绩获得秩 5。

斯皮尔曼秩的假设检验

我们也可以使用秩来检验关联性。

原假设（ $H_0$ ）： $\rho_s = 0$ （不存在关联）。
备择假设（ $H_1$ ）： $\rho_s \neq 0$ （存在关联）。

方法： 在斯皮尔曼秩相关系数表中查找临界值。

(a) 描述在什么情况下你会使用斯皮尔曼秩相关系数而非积矩相关系数来度量两个变量之间关系的强度。

一家商店销售太阳镜和冰淇淋。在夏季的一周内，店主对冰淇淋和太阳镜的每日销量进行了排名。排名如下表所示。

	周日	周一	周二	周三	周四	周五	周六
冰淇淋	6	4	7	5	3	2	1
太阳镜	6	5	7	2	3	4	1

(b) 计算这些数据的斯皮尔曼秩相关系数。 (c) 在 5% 显著性水平下，检验冰淇淋和太阳镜的销量之间是否存在正相关。清楚地陈述你的假设。 (d) 店主根据原始数据计算了积矩相关系数，得到 $r = 0.65$ 。使用这个新的相关系数，在 5% 显著性水平下检验冰淇淋和太阳镜的销量之间是否存在正相关。 (e) 利用你在 (c) 和 (d) 部分的答案，评论太阳镜销量与冰淇淋销量之间关系的性质。

作业练习

九名舞者——Adilzhan (A)、Bianca (B)、Chantelle (C)、Lee (L)、Nikki (N)、Ranjit (R)、Sergei (S)、Thuy (T) 和 Yana (Y)——参加一场舞蹈比赛。两名评委根据每位舞者的表现进行排名。下表显示了每位评委的排名，从表现最好的舞者开始。

排名	1	2	3	4	5	6	7	8	9
评委 1	S	N	B	C	T	A	Y	R	L
评委 2	S	T	N	B	C	Y	L	A	R

(a) 计算这些数据的斯皮尔曼秩相关系数。(5) (b) 清楚地陈述你的假设，在 1% 显著性水平下检验两名评委的评分是否总体上一致。(4)

一名记者正在调查影响人们购买新车的因素。其中一个可能的因素是燃油效率。该记者随机选取了 8 款车型。每款车型的年销量和燃油效率（km/litre）如下表所示。

车型	A	B	C	D	E	F	G	H
年销量	1800	5400	18100	7100	9300	4800	12200	10700
燃油效率	5.2	18.6	14.8	13.2	18.3	11.9	16.5	17.7

(a) 计算这些数据的斯皮尔曼秩相关系数。 (b) 该记者认为燃油效率更高的车型会有更高的销量。清楚地陈述你的假设，检验数据是否支持记者的观点。使用 5% 显著性水平。 (c) 陈述在本例中使用积矩相关系数有效所需的假设。 (d) 随机样本中车型的燃油效率均值和中位数分别为 14.5 km/litre 和 15.65 km/litre。考虑这些统计量以及燃油效率数据的分布，说明数据是否表明 (c) 部分中的假设在本例中可能成立。给出你的理由。（不需要进一步计算。）

下表显示了 2020 年排名前 10 的飞镖选手赢得的电视转播比赛次数和总比赛次数。

选手排名	赢得的电视转播比赛次数	赢得的总比赛次数
1	55	135
2	7	33
3	5	17
4	2	14
5	4	9
6	2	5
7	9	36
8	0	15
9	3	3
10	0	13

Michael 不想计算选手排名与赢得电视转播比赛次数排名之间的斯皮尔曼秩相关系数，因为会存在并列秩。

(a) 解释 Michael 如何处理这些并列秩。 (b) 假设赢得总比赛次数最多的选手排名为第 1，计算选手排名与赢得总比赛次数排名之间的斯皮尔曼秩相关系数。 (c) 清楚地陈述你的假设和临界值，在 5% 显著性水平下检验这些飞镖选手的排名与赢得总比赛次数排名之间是否存在正相关的证据。 (d) Michael 认为选手排名与赢得总比赛次数排名之间不存在正相关。找出在所提供的统计表中可以支持 Michael 主张的最大显著性水平。你必须说明临界值。

附录：动手例题的解答

PMCC 计算解答：

$x$	$y$	$x^2$	$y^2$	$xy$
2	50	4	2500	100
3	60	9	3600	180
5	70	25	4900	350
6	80	36	6400	480
9	90	81	8100	810
$\sum x = 25$	$\sum y = 350$	$\sum x^2 = 155$	$\sum y^2 = 25500$	$\sum xy = 1920$

$S_{xx} = 155 - \frac{25^2}{5} = 30$ $S_{yy} = 25500 - \frac{350^2}{5} = 1000$ $S_{xy} = 1920 - \frac{25 \times 350}{5} = 170$ $r = \frac{170}{\sqrt{30 \times 1000}} \approx 0.981$

“PMCC 为零”陷阱的解答：

$\sum x = 0$ ， $\sum y = 10$ ， $\sum xy = 0$

由于 $S_{xy} = 0 - \frac{0 \times 10}{5} = 0$ ，我们得到 $r = 0$ 。

“离群值”幻觉的解答：

$\sum x = 26$ ， $\sum y = 134$ ， $\sum xy = 1844$
$\sum x^2 = 406$ ， $\sum y^2 = 8588$

$S_{xx} = 406 - \frac{26^2}{5} = 270.8$ $S_{yy} = 8588 - \frac{134^2}{5} = 4995.2$ $S_{xy} = 1844 - \frac{26 \times 134}{5} = 1147.2$ $r = \frac{1147.2}{\sqrt{270.8 \times 4995.2}} \approx 0.986$

男性	A	B	C	D	E	F	G	H	I	J
MR ( $x$ )	6.24	5.94	6.83	6.53	6.31	7.44	7.32	8.70	7.88	7.78
BMI ( $y$ )	19.6	19.2	23.6	21.4	20.2	20.8	22.9	25.5	23.3	25.1