Please enable JavaScript to view this site.

R²的含义

R² 是一个介于 0.0 到 1.0 之间的分数,且没有单位。 R²值为0.0意味着已知X无法帮助预测Y。X与Y之间不存在线性关系,最佳拟合直线是一条通过所有Y值均值的水平线。当R²等于1.0时,所有数据点都精确地落在直线上,且无散布。已知X即可完美预测Y。

R²的计算方法

本图演示了 Prism 如何计算 R²。

左侧面板显示了最佳拟合线性回归直线。该直线使各数据点与直线的垂直距离平方和最小。 这些垂直距离也显示在图的左侧面板中。在本示例中,这些距离的平方和(SSreg)等于 0.86。其单位是 Y 轴单位的平方。要将此值用作拟合优度的衡量标准,必须将其与某项进行比较。

图的右半部分显示了零假设 - 一条通过所有 Y 值均值的水平线。该模型的拟合优度(SStot)同样计算为数据点到该线的垂直距离平方和,在本示例中为 4.907。这两个平方和值的比值用于比较回归模型与零假设模型。 图中给出了计算 r² 的公式。在本示例中,r² 为 0.8428。回归模型比零假设模型更贴合数据,因此 SSreg 远小于 SStot,且 r² 接近 1.0。如果回归模型并不比零假设模型好多少,r² 就会接近零。

可以将 r² 理解为 Y 的总方差中由 X 的变化所“解释”的部分。与回归直线本身不同,如果将 X 和 Y 互换,r² 的值将保持不变。因此,r² 也是 X 的方差中由 Y 的变化所“解释”的部分。换言之,r² 代表 X 和 Y 之间共享的变异比例。

在本示例中,Y的总方差中有84%由线性回归模型“解释”。线性回归模型中数据的方差(SS)仅占Y值总方差(SStot)的16%。

r²有何用处?

许多人认为 r² 的作用在于:当您进行一系列实验时,需要确保今天的实验结果与其他实验结果保持一致。例如,如果您通常得到的 r² 值在 0.90 到 0.95 之间,但今天却得到 r²=0.75,那么您就应该产生怀疑,并仔细检查该次实验中是否存在方法或试剂方面的问题。 如果新员工使用同一套系统向您提交的结果显示 R² 为 0.99,您应该仔细核查被剔除的“异常值”有多少,以及是否存在虚构数据。

为何Prism在受限线性回归中不报告r²

当您强制回归直线通过原点(或任何其他点)时,Prism 不会报告 r²,因为此时计算结果会产生歧义。当回归直线受约束时,计算 r² 有两种方法。正如您在上一节中所见,r² 是通过比较回归直线的平方和与由零假设定义的模型的平方和来计算的。 在受限回归中,存在两种可能的零假设。一种是经过所有 Y 值均值的水平直线。但这条直线不符合约束条件 - 它不经过原点。另一种零假设则是经过原点的水平直线,但该直线远离大部分数据点。

由于在受限线性回归中 r² 存在歧义,Prism 不会报告该值。若您确实需要获取 r² 的数值,请使用非线性回归将数据拟合到方程 Y=斜率*X。Prism 将报告按第一种方式定义的 r²(即比较回归平方和与一条通过 Y 均方值的水平线的平方和)。

大写还是小写?

在线性和非线性回归中,通常使用缩写 r²。在非线性回归中,惯例是使用 R²。这种区分似乎没有特别的理由。