Please enable JavaScript to view this site.

本页面所述的功能均包含在我们的全新 Pro 和 Enterprise 订阅中。了解更多...

概览

“残差”选项卡允许您通过检查残差并生成诊断图,来验证方差分析(ANOVA)的假设。残差是指观察值与方差分析模型预测值之间的差异。

检查残差至关重要,因为方差分析(ANOVA)对数据做出了特定假设。它假设残差服从正态分布,且各组间的方差相等(方差齐性)。当这些假设不成立时,P 值可能不准确,您的结论也可能受到影响。残差图还能揭示异常值、数据录入错误或模型设置中的问题。

在解释结果之前检查残差通常是个好习惯。在发表论文前、结果出乎意料时,或样本量较小的情况下(因为在数据有限时,方差分析的稳健性较弱),这一点尤为重要。对于大型且均衡的样本,方差分析对轻微的假设违背具有相当的稳健性,但验证假设是否合理满足仍是一种良好的实践。

应生成哪些图表?

您可以选择 Prism 应生成哪些诊断图。每张图都能帮助您评估模型假设的不同方面:

残差图

该图展示了残差(Y 轴)与预测值(X 轴)的关系。在理想的残差图中,数据点应随机散布在零点周围,且无明显规律或趋势。数据点在整个预测值范围内应大致均匀分布,形成无系统性结构的点云。这种随机散布表明模型很好地捕捉了数据中的关系,且假设条件得到满足。

残差图中可能出现几种问题模式。若出现扇形分布(即散布随预测值增大或减小),则表明存在异方差 - 各组间的方差不均等。这种情况常出现在生物数据中,可能需要进行变换(如对数或平方根)来解决。 若数据点呈 U 形或弧形分布,则表明模型遗漏了某些重要因素,例如交互作用项。最后,该图可能显示出异常值,即远离主聚类的一两个数据点。这些异常值可能表明存在数据录入错误,也可能是值得深入调查的真实但极端的值。

同方差性图

该图展示了残差的绝对值与预测值的关系。它特别有助于检测在常规残差图中可能难以察觉的方差不齐现象。

理想情况下,数据点应呈随机分布且无明显趋势。各预测值对应的残差分布应保持一致。若观察到残差绝对值随预测值增加而上升的趋势,则表明样本量较大的组其方差也较大。这种情况常见于计数数据或百分比数据,通常可通过对数或平方根变换来修正。 向下的趋势虽不常见,但同样令人担忧。若数据点形成明显的水平带状分布,可能表明不同组别的方差差异极大,这可能暗示数据质量存在问题,或者各组在变异性上存在根本性差异。

QQ图(分位数-分位数图)

QQ图将残差的分布与正态分布的预期分布进行比较。该图以Y轴显示预测残差(假设其完全服从正态分布),以X轴显示实际残差,并绘制一条对角参考线。

如果残差近似服从正态分布,数据点应靠近对角线分布。两端的小幅偏离是可以接受的,通常并不表示存在问题。在真实数据中,我们不期望观察到完美的正态分布,因此某些偏离是预料之中的。关键在于整体模式是否合理地贴合该线。

若数据点在两端远离对角线形成 S 形曲线,则表明数据存在偏斜度。右偏数据(在生物学中很常见)通常通过对数转换能获得更好的分析效果。当数据点在两端远离对角线形成厚尾时,表明您拥有的极端值比正态分布预测的更多。这可能表明存在异常值或分布具有更厚的尾部。薄尾则显示出相反的模式,通常无需过多担忧。 最后,若数据点始终系统性地偏离直线上方或下方,则表明您的分布不呈正态,可能需要进行变换或采用替代分析方法。

残差诊断

除了通过图表进行目视检查外,Prism 还提供了用于检验假设的统计检验。这些检验提供了客观的衡量标准,但应结合图表进行解读,而非孤立看待。

斯皮尔曼等级相关检验(用于检验异方差性)

该检验计算预测值与绝对残差之间的相关性,以检验方差是否随数值大小系统性地增大(或减小)。它为同方差性图的目视检查提供了客观的替代方案。 在理想条件下,残差与预测值之间不应存在相关性(相关系数应等于或接近零)。因此,较大的 P 值表明数据不足以支持拒绝“不存在相关性”这一零假设。简而言之,此处应寻求较大的 P 值。

残差是否服从正态分布?

此选项将对残差运行四种不同的正态性检验:D'Agostino-Pearson检验(考察偏斜度和峰度)、Anderson-Darling检验(侧重分布的尾部)、Shapiro-Wilk检验(通常是正态性检验中最有效的)以及 Kolmogorov-Smirnov检验(检验整体分布形状)。 这些检验共同评估残差是否来自正态分布。

如果这四项检验的 P 值均大于 0.05,则数据不足以支持拒绝任何一项检验的零假设。由于每项检验的零假设都是数据服从正态分布,因此当 P 值较大时,可以认为未检测到显著偏离正态分布的情况。换言之,这表明正态性假设是合理的,您可以继续解读方差分析 (ANOVA) 的结果。

如果部分或全部检验的 P 值小于 0.05,则表明检测到了显著的正态性偏离。在惊慌失措之前,请考虑以下几个因素。首先,偏离程度有多严重?检查您的 QQ 图 - 如果曲线看起来与直线相当接近,即使偏离在统计学上显著,在实际应用中可能并不重要。 其次,样本量有多大?对于大样本(尤其是每组超过50-100个观测值的情况),方差分析(ANOVA)对中度的正态性偏离具有相当强的鲁棒性。第三,是否是异常值导致了问题?即使数据主体没有问题,少数极端值也可能导致检验显著。请检查数据录入错误或测量问题。最后,数据转换是否会有帮助?对右偏的生物学数据,对数转换通常能改善其正态性。

何时对数据进行变换

如果残差诊断显示存在假设违背,对因变量进行变换可能会有所帮助。变换会改变测量值的尺度,从而使分布更接近正态,并稳定变异性。以下是最常见的变换方法及其适用场景:

对数转换

当数据呈右偏斜度较大且高值端长尾、方差随均值增加,或数据跨度达数个数量级时,应使用 log(Y) 或 log(Y+1)。这种变换在生物学中非常常见,常用于浓度、基因表达水平和细胞计数。对数变换对大值的压缩程度大于小值,这通常既能使分布趋于正态,又能均衡各组间的方差。

一个限制:不能对零或负值取对数。如果数据包含零值,请改用 log(Y+1),即在取对数前将所有数值向上平移一个单位。转换后,请重新运行分析并再次检查残差,以确认该转换是否有效。

平方根转换

当数据存在中度偏斜度、为计数型数据(如菌落数、事件数或细胞数),或变异性与均值成正比时,请使用平方根转换(sqrt(Y))。这种转换比对数转换温和,但通常对计数型数据效果良好。当响应变量服从泊松分布(此时变异性会随均值自然增加)时,此转换尤为适用。

倒数转换

倒数转换(1/Y)适用于严重右偏斜度的情况,或用于时间及速率数据。该方法在生物学研究中较少见,且因颠倒了量纲(大值变为小值,反之亦然)而难以解读。请谨慎使用此转换,并确保颠倒后的量纲仍符合您的科学问题。

关于变换的一个重要注意事项:它既改变了数据的量级,也改变了结果的解释。采用对数变换后,您比较的是几何均值而非算术均值;当您反变换回原始量级时,差异将表现为倍数变化而非绝对差异。请务必明确说明您使用了变换后的数据,并解释如何解读结果。例如:“数据在分析前进行了对数变换。结果以几何均值呈现,差异表示倍数变化。””