相关性与线性回归并不相同。 目标是什么? 相关性量化了两个变量之间的关联程度。相关性不会在数据点上拟合一条直线。 您只是在计算相关系数(r),它告诉您当一个变量发生变化时,另一个变量通常会发生多大程度的变化。当 r 为 0.0 时,两者之间没有关系。当 r 为正值时,存在一种趋势:一个变量上升时,另一个变量也随之上升。当 r 为负值时,存在一种趋势:一个变量上升时,另一个变量随之下降。 线性回归则用于寻找能最好地根据X预测Y的直线。 适用于何种数据? 相关分析几乎总是在同时测量两个变量时使用。当其中一个变量是实验中人为操控的变量时,相关分析很少适用。 当 X 是您所操控的变异性(如时间、浓度等)时,通常使用线性回归。 哪个变量是X、哪个是Y重要吗? 在相关性分析中,无需考虑因果关系。两个变量中哪个被命名为“X”、哪个被命名为“Y”并不重要。即使将二者互换,得到的相关系数也相同。 而在回归分析中,将哪个变量设为“X”、哪个设为“Y”至关重要,因为如果将两者互换,得到的最佳拟合直线将不同。能最好地根据X预测Y的直线,与根据Y预测X的直线并不相同(尽管这两条直线的R²值相同)。 假设 相关系数本身仅仅是一种描述两个变量如何共同变化的方式,因此可以针对任意两个变量进行计算和解读。 然而,进一步的推论需要一个额外假设 - 即X和Y均为可测量变量(属于间隔或比率变量),且两者均来自高斯分布。这被称为二元高斯分布。如果这些假设成立,那么就可以解读r的置信区间以及用于检验“两个变量之间实际上没有相关性”(且所观察到的任何相关性都是随机抽样的结果)这一零假设的P值。 在线性回归中,X值可以是可测量的,也可以是实验者控制的变量。X值并不被假设是从高斯分布中抽样的。点与最佳拟合直线的距离被假设服从高斯分布,且散布的标准差与X或Y值无关。 结果之间的关系 相关分析计算皮尔森相关系数 r 的值。其取值范围为 -1 到 +1。 线性回归通过 r²(有时用大写 R² 表示)来量化拟合优度。若将同一组数据用于相关分析(这种情况很少适用;参见上文),则相关分析中 r 的平方将等于回归分析中的 r²。 |