回顾 S1 的内容:为了度量两个变量 x 和 y 之间线性关系的强度,我们使用积矩相关系数(Product Moment Correlation Coefficient, PMCC),记作 r。
定义:皮尔逊相关系数(Pearson’s Correlation Coefficient)
样本相关系数的计算公式为:
r=SxxSyySxy
其中:
- Sxy=∑(xi−xˉ)(yi−yˉ)=∑xy−n(∑x)(∑y)
- Sxx=∑(xi−xˉ)2
- Syy=∑(yi−yˉ)2
假设我们在屏幕时间研究中计算出 r=−0.4(n=10)。
这表明存在中等强度的负相关关系。
但是! 即使现实中完全不存在关系,随机抽样也可能恰好得到 10 名手机使用越多睡眠越差的学生。
问题: r 需要多强,我们才能有信心地说这不仅仅是运气?
正如 Xˉ 是 μ 的估计量一样,样本相关系数 r 是真实总体相关系数的估计量,我们用希腊字母 ρ(rho)表示总体相关系数。
- ρ:所有学生的真实相关系数(未知参数)。
- r:我们 10 名学生样本的相关系数(计算得到的统计量)。
为了检验是否存在相关性的证据,我们对 ρ 建立假设:
| |
|---|
| 原假设(H0): | ρ=0(总体中不存在相关性) |
| 备择假设(H1): | ρ=0(存在相关性——双尾检验) |
| ρ>0(正相关——单尾检验) |
| ρ<0(负相关——单尾检验) |
我们不需要手动计算 Z 或 t 分数。相反,我们将计算得到的样本 ∣r∣ 与统计表中的**临界值(Critical Value)**进行比较。
PMCC(r)功能强大,但有两个主要弱点。让我们通过实例来探究。
斯皮尔曼秩相关系数(记作 rs)就是对数据的秩(而非数据本身)计算 PMCC。
- 将 x 值从 1 到 n 排秩(例如 1= 最小,n= 最大)。
- 将 y 值从 1 到 n 排秩。
- 用这些秩计算皮尔逊 r。
如果没有并列秩(没有两个值相同),通过代数推导可以得到一个更简单的公式:
如果两个或多个值相同(例如两名学生都得了 85 分),我们给他们分配他们所占位置的平均秩。
- 例如:如果第 3 名和第 4 名的成绩相同,则两人都获得秩 23+4=3.5。下一个最好的成绩获得秩 5。
我们也可以使用秩来检验关联性。
- 原假设(H0): ρs=0(不存在关联)。
- 备择假设(H1): ρs=0(存在关联)。
方法:
在斯皮尔曼秩相关系数表中查找临界值。
PMCC 计算解答:
| x | y | x2 | y2 | xy |
|---|
| 2 | 50 | 4 | 2500 | 100 |
| 3 | 60 | 9 | 3600 | 180 |
| 5 | 70 | 25 | 4900 | 350 |
| 6 | 80 | 36 | 6400 | 480 |
| 9 | 90 | 81 | 8100 | 810 |
| ∑x=25 | ∑y=350 | ∑x2=155 | ∑y2=25500 | ∑xy=1920 |
Sxx=155−5252=30
Syy=25500−53502=1000
Sxy=1920−525×350=170
r=30×1000170≈0.981
“PMCC 为零”陷阱的解答:
- ∑x=0,∑y=10,∑xy=0
由于 Sxy=0−50×10=0,我们得到 r=0。
“离群值”幻觉的解答:
- ∑x=26,∑y=134,∑xy=1844
- ∑x2=406,∑y2=8588
Sxx=406−5262=270.8
Syy=8588−51342=4995.2
Sxy=1844−526×134=1147.2
r=270.8×4995.21147.2≈0.986