跳转到内容

S3 第五章:相关性与秩

引言:屏幕时间会毁掉你的睡眠吗?

Section titled “引言:屏幕时间会毁掉你的睡眠吗?”

回顾 S1 的内容:为了度量两个变量 xxyy 之间线性关系的强度,我们使用积矩相关系数(Product Moment Correlation Coefficient, PMCC),记作 rr

定义:皮尔逊相关系数(Pearson’s Correlation Coefficient) 样本相关系数的计算公式为:

r=SxySxxSyyr = \frac{S_{xy}}{\sqrt{S_{xx}S_{yy}}}

其中:

  • Sxy=(xixˉ)(yiyˉ)=xy(x)(y)nS_{xy} = \sum(x_i - \bar{x})(y_i - \bar{y}) = \sum xy - \frac{(\sum x)(\sum y)}{n}
  • Sxx=(xixˉ)2S_{xx} = \sum(x_i - \bar{x})^2
  • Syy=(yiyˉ)2S_{yy} = \sum(y_i - \bar{y})^2

假设我们在屏幕时间研究中计算出 r=0.4r = -0.4n=10n=10)。 这表明存在中等强度的负相关关系。

但是! 即使现实中完全不存在关系,随机抽样也可能恰好得到 10 名手机使用越多睡眠越差的学生。

问题: rr 需要多强,我们才能有信心地说这不仅仅是运气?

正如 Xˉ\bar{X}μ\mu 的估计量一样,样本相关系数 rr 是真实总体相关系数的估计量,我们用希腊字母 ρ\rho(rho)表示总体相关系数。

  • ρ\rho所有学生的真实相关系数(未知参数)。
  • rr:我们 10 名学生样本的相关系数(计算得到的统计量)。

为了检验是否存在相关性的证据,我们对 ρ\rho 建立假设:

原假设(H0H_0):ρ=0\rho = 0(总体中不存在相关性)
备择假设(H1H_1):ρ0\rho \neq 0(存在相关性——双尾检验)
ρ>0\rho > 0(正相关——单尾检验)
ρ<0\rho < 0(负相关——单尾检验)

我们不需要手动计算 ZZtt 分数。相反,我们将计算得到的样本 r|r| 与统计表中的**临界值(Critical Value)**进行比较。

PMCC(rr)功能强大,但有两个主要弱点。让我们通过实例来探究。

斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient)

Section titled “斯皮尔曼秩相关系数(Spearman’s Rank Correlation Coefficient)”

斯皮尔曼秩相关系数(记作 rsr_s)就是对数据的(而非数据本身)计算 PMCC。

  1. xx 值从 1 到 nn 排秩(例如 1=1= 最小,n=n= 最大)。
  2. yy 值从 1 到 nn 排秩。
  3. 用这些秩计算皮尔逊 rr

如果没有并列秩(没有两个值相同),通过代数推导可以得到一个更简单的公式:

如果两个或多个值相同(例如两名学生都得了 85 分),我们给他们分配他们所占位置的平均秩。

  • 例如:如果第 3 名和第 4 名的成绩相同,则两人都获得秩 3+42=3.5\frac{3+4}{2} = 3.5。下一个最好的成绩获得秩 5。

我们也可以使用秩来检验关联性。

  • 原假设(H0H_0): ρs=0\rho_s = 0(不存在关联)。
  • 备择假设(H1H_1): ρs0\rho_s \neq 0(存在关联)。

方法:斯皮尔曼秩相关系数表中查找临界值。

PMCC 计算解答:

xxyyx2x^2y2y^2xyxy
25042500100
36093600180
570254900350
680366400480
990818100810
x=25\sum x = 25y=350\sum y = 350x2=155\sum x^2 = 155y2=25500\sum y^2 = 25500xy=1920\sum xy = 1920

Sxx=1552525=30S_{xx} = 155 - \frac{25^2}{5} = 30 Syy=2550035025=1000S_{yy} = 25500 - \frac{350^2}{5} = 1000 Sxy=192025×3505=170S_{xy} = 1920 - \frac{25 \times 350}{5} = 170 r=17030×10000.981r = \frac{170}{\sqrt{30 \times 1000}} \approx 0.981

“PMCC 为零”陷阱的解答:

  • x=0\sum x = 0y=10\sum y = 10xy=0\sum xy = 0

由于 Sxy=00×105=0S_{xy} = 0 - \frac{0 \times 10}{5} = 0,我们得到 r=0r = 0

“离群值”幻觉的解答:

  • x=26\sum x = 26y=134\sum y = 134xy=1844\sum xy = 1844
  • x2=406\sum x^2 = 406y2=8588\sum y^2 = 8588

Sxx=4062625=270.8S_{xx} = 406 - \frac{26^2}{5} = 270.8 Syy=858813425=4995.2S_{yy} = 8588 - \frac{134^2}{5} = 4995.2 Sxy=184426×1345=1147.2S_{xy} = 1844 - \frac{26 \times 134}{5} = 1147.2 r=1147.2270.8×4995.20.986r = \frac{1147.2}{\sqrt{270.8 \times 4995.2}} \approx 0.986