线性回归与相关性不同。
线性回归旨在找出能最好地根据X预测Y的直线。
相关性则量化了两个变量之间的关联程度。相关性不会在数据点上拟合一条直线。 您只是在计算相关系数(r),它告诉您当一个变量发生变化时,另一个变量通常会发生多大程度的变化。当 r 为 0.0 时,两者之间没有关系。当 r 为正值时,存在一种趋势:一个变量上升时,另一个变量也上升。当 r 为负值时,存在一种趋势:一个变量上升时,另一个变量下降。
线性回归通常用于X是您所操控的变量(如时间、浓度等)的情况
相关分析几乎总是用于同时测量两个变量的情况。当其中一个变量是实验中人为操控的变量时,相关分析很少适用。
在回归分析中,将哪个变量设为“X”、哪个设为“Y”至关重要,因为如果将两者互换,得到的最佳拟合直线将不同。能最好地根据X预测Y的直线,与根据Y预测X的直线并不相同(尽管这两条直线的R²值相同)。
在相关性分析中,无需考虑因果关系。无论将哪个变量设为“X”、哪个设为“Y”都无关紧要。即使互换两者的位置,所得的相关系数也保持不变。
在线性回归中,X值可以是观测数据,也可以是实验者控制的变量。X值并不被假设为来自正态分布。但数据点到最佳拟合线的距离被假设服从正态分布,且散布的标准差与X或Y值无关。
相关系数本身仅仅是描述两个变量如何共同变化的手段,因此可以针对任意两个变量进行计算和解释。然而,进一步的推断需要一个额外假设 - 即 X 和 Y 均为测量变量(属于间隔或比率变量),且两者均来自高斯分布。 这被称为双变量高斯分布。如果这些假设成立,那么就可以解释 r 的置信区间以及用于检验“两个变量之间实际上没有相关性(且所观察到的任何相关性都是随机抽样的结果)”这一零假设的 P 值。
线性回归通过 r²(有时用大写 R² 表示)来量化拟合优度。若将同一组数据用于相关性分析(这通常并不合适;参见上文),则相关性分析中 r 的平方将等于回归分析中的 r²。
相关分析计算皮尔逊相关系数 r 的值。其取值范围为 -1 到 +1。