为了确认多元回归是否适用于这些数据,请自问以下问题。
每个自变量(X)与因变量(Y)之间的关系是否呈线性? 在许多实验中,X与Y之间的关系是非线性的,这使得多元线性回归不适用。在某些情况下,您可以通过对一个或多个X变量进行转换来建立线性关系。您也可以将数据限制在X变量范围较窄的区间内,此时关系接近线性。有些软件(但目前GraphPad Software尚未提供此类功能)能够对多个独立变量进行非线性回归分析。
残差(实际 Y 值与预测 Y 值之间的偏差)是否服从正态分布(至少近似服从)? 多元回归假设残差的分布是随机且服从高斯分布的。
各处的变异性是否一致? 多元回归假设数据点与模型预测值的偏差在所有 X 值处具有相同的标准偏差。如果 X 值较高(或较低)的数据点也往往离最佳拟合线更远,则该假设不成立。标准偏差在各处均相同的假设被称为同方差性。Prism 提供了不等权重功能,但此时的假设是加权残差在平均意义上各处均相同。
您是否精确知道 X 的数值? 回归模型假设所有 X 值均完全准确,且实验误差或生物学变异性仅影响 Y 值。这种情况很少见,但只要假设 X 测量中的任何不精确度与 Y 的变异性相比非常小,这一假设就足够了。
数据点之间是否相互独立? 某个数据点高于或低于回归模型预测值应是随机的,且不应影响另一个数据点位于回归线之上或之下。
是否存在过拟合? 与所有统计学方法一样,回归分析的目标是分析样本数据,并据此对总体做出有效的推断。但使用多元回归技术时,这一目标并非总能实现。人们很容易得出仅适用于样本数据拟合、却并不真正适用于总体的结论。 当研究重复进行时,这些结论将无法复现。这一问题被称为过拟合。它发生在您提出的问题超出了数据所能回答的范围时 - 即模型中的自变量数量相对于受试者数量过多时。 多少个独立变量算太多?对于多元回归,经验法则是每个独立变量(Prism中的列)至少对应10–20个受试者(案例;Prism中的行)。因此,拟合一个包含五个独立变量的模型大约需要50到100个受试者或案例。这只是经验法则,并非严格标准。
您真的出现了过拟合吗? 如果样本数量少于自变量数量,您的分析几乎肯定毫无意义。