自动异常值剔除功能非常有用,但在某些情况下可能会导致结果无效(甚至产生误导),因此应谨慎使用。您可以要求 Prism 仅识别并统计其判定为异常值的数值。或者,您可以要求它将已识别的异常值从拟合的数据集中排除。
若选择排除或标记异常值,请设置 ROUT 系数 Q 来确定 Prism 判定异常值的严格程度。
我们建议使用 1% 的值。我们的模拟结果表明,如果所有数据点服从高斯分布,Prism 将在约 2-3% 的实验中错误地发现一个或多个异常值。如果数据中确实存在异常值,Prism 检测它们时的错误发现率将低于 1%。参见参考文献 1。
若将 Q 设为较高值,定义异常值的阈值将更宽松。这意味着 Prism 检测异常值的检验力会增强,但同时也会更频繁地错误地将某些数据点判定为“异常值”。若将 Q 设为较低值,定义异常值的阈值将更严格。这意味着 Prism 检测真实异常值的能力会减弱,但将数据点错误判定为异常值的可能性也会降低。
若将 Q 设为 0,Prism 将使用普通非线性回归拟合数据,而不进行异常值识别。
勾选此选项(Prism 8 版本新增),将生成一个包含已清理数据(不含异常值的数据)的分析标签页。Prism 不会自动绘制该已清理数据表的图表,但操作非常简单(“新建”>“现有数据图表”)。
Prism 始终会在分析选项卡中生成异常值表格,且无法选择不显示该表格。
Prism提供四种拟合方法供选择:
这是标准的非线性回归。Prism 通过最小化数据点与曲线之间垂直距离的平方和(简称最小二乘回归)来拟合曲线。若您假设残差分布(即数据点到曲线的距离)服从高斯分布,则此方法最为合适。
稳健回归受异常值的影响较小,但无法生成参数的置信区间,因此实用性有限。它在 Prism 中的主要用途是作为异常值检测的第一步。它是判断残差是否“过大”从而将该点判定为异常值的基准。单独进行稳健回归通常帮助不大,但 Prism 仍为您提供了这一选项。
当每个 Y 值代表您计数的对象或事件数量时,请选择Poisson回归。这些必须是实际计数值,不得进行任何标准化处理。 如果仪器显示您的样本每分钟有 98.5 次放射性衰变,但您要求计数器对每个样本计数 10 分钟,那么它计数到的就是 985 次放射性衰变。这就是您在Poisson回归中应输入的数值。如果 Y 值是归一化计数(而非实际计数),则不应选择Poisson回归。
非线性回归采用迭代方式,并以各参数的初始值开始。勾选“不拟合曲线”以查看由初始值生成的曲线。如果曲线与数据相距甚远,请返回“初始参数”选项卡并输入更合适的初始值。重复此过程,直到曲线接近数据点。然后返回“方法”选项卡并勾选“拟合曲线”。这通常是诊断非线性回归问题的最佳方法。
非线性回归是一个迭代过程。它从参数的初始值开始,然后反复调整这些值以提高拟合优度。当调整参数值对拟合优度的影响微乎其微时,回归过程即告结束。
Prism 允许您通过三种方式定义收敛准则。
•快速。若需拟合海量数据集,可使用“快速”收敛定义来加快拟合速度。选择此选项时,当连续两次迭代中平方和的变化幅度小于 0.01% 时,即判定非线性回归收敛。
•中等(默认)。当连续五次迭代使平方和的变化小于 0.0001% 时,非线性回归即被视为收敛。
•严格。若难以获得合理的拟合结果,可尝试采用更严格的收敛定义。选择此选项时,非线性回归迭代将持续进行,直至连续五次迭代使平方和的变化幅度小于 0.00000001%。 虽然这通常帮助不大,但仍值得一试。不总是使用最严格选项的唯一原因是计算完成所需时间更长。对于小数据集这无关紧要,但在处理大数据集或运行脚本分析多个数据表时则会产生影响。
在拟合曲线时,Prism 将在达到该迭代次数后停止。默认值为 1000,通常没有必要输入其他数值。唯一需要调整的情况是,当您运行脚本自动分析多个数据表(且每个数据表包含大量数据点)时。此时拟合速度可能较慢,因此降低最大迭代次数是合理的,这样 Prism 就不会浪费时间去尝试拟合无法拟合的数据。
对数据点进行差异化权重处理通常很有用。了解原因。
Prism 在非线性回归的“方法”选项卡中提供了七种选择:
不加权。回归通常通过最小化数据点到直线或曲线的垂直距离平方和来实现。距离曲线越远的点对平方和的贡献越大,而靠近曲线的点贡献较小。当您预期实验散布在曲线的各个部分平均分布时,这种做法是合理的。
按 1/Y² 加权。在许多实验情境中,当 Y 值较高时,数据点到曲线的平均距离(或更准确地说,距离的平均绝对值)通常会更大。散布较大的数据点将产生更大的平方和,从而主导计算结果。 若预期相对距离(残差除以曲线高度)保持一致,则应采用 1/Y² 加权。
按 1/Y 加权。当散布服从泊松分布时,此选项非常有用 - 即当 Y 代表定义空间内的对象数量或定义区间内的事件数量时。
按 1/YK 加权。也称为“通用加权”。阅读更多。
按 1/X 或 1/X² 加权。这些选项很少使用。仅当这是您所在领域的标准时才选择这些加权方案,例如生物测定中的线性拟合。
按 1/SD² 加权。若在每个 X 值处输入重复的 Y 值(例如三重复),人们往往倾向于根据重复样本的离散程度对数据点进行加权,即当三重复样本间距较大导致标准偏差 (SD) 较高时,赋予该点较小的权重。但除非拥有大量重复样本,否则此方法帮助不大。 构成某个均值的三个重复样本可能因偶然因素而分布较远,但该均值的准确性可能与其他均值一样高。 加权必须基于离散度的系统性变化。当您希望使用 Prism 中未提供的加权方案时,采用 1/SD² 加权法最为实用。此时,请将数据作为均值和标准偏差输入,但将您在其他地方计算出的该数据点的“SD”加权值输入到相应子列中。换言之,您在“SD”子列中输入的值实际上并非标准偏差,而是其他地方计算出的加权因子。
关于加权的说明
•如果您已对数据进行了标准化处理,通常没有必要再进行加权。
•模拟可以展示选择错误的加权方案会产生多大影响。
•若选择不等权重,Prism 在绘制残差图时会将此因素纳入考量。
•Prism 在计算 R² 时会考虑加权因素。
•如果您在“拟合方法”部分选择了鲁棒回归,则“加权方法”部分中的某些选项将不可用。请注意,您选择的加权方式将影响 Prism 计算和绘制的残差,以及它识别异常值的方式。异常值检测和处理的选项也可在“方法”选项卡中找到,而绘制残差图的选项则可在非线性回归的“诊断”选项卡中找到。
•若要求 Prism 移除异常值,加权选项不会影响第一步(稳健回归)。随后通过观察加权残差的大小来识别异常值。最后,对已清理的数据(不含异常值)进行加权回归拟合。

选择拟合全部数据(若已输入,则为各重复数据;若按标准差或标准误差及样本量输入,则以此为准),还是仅拟合均值。
若仅拟合均值,Prism“观察”到的数据点较少,因此参数的置信区间往往较宽,且比较替代模型的检验力较低。基于这些原因,在可能的情况下,应选择让回归模型将每个重复样本视为独立数据点,而非仅考虑均值。
这个问题归根结底在于独立性。回归分析的一个重要假设是所有数据点的残差相互独立。 以下是一个重复测量不独立的示例,此时应仅拟合均值:您进行了一项剂量-反应实验,每个剂量组使用不同的动物,并进行三次重复测量。这三次测量结果不独立,因为如果某只动物的反应比其他动物更强烈,所有重复测量的值都可能偏高。由于重复测量不独立,您应拟合均值而非单个重复测量值。
若您输入的是均值、样本量(n)及标准差(SD)或标准误(SEM),Prism 会提供两种拟合选项:仅拟合均值,或同时考虑标准差和样本量。若选择后者,Prism 通过最小二乘回归计算出的结果将与您输入原始数据时完全一致。
1.Motulsky HM 和 Brown RE,《使用非线性回归拟合数据时检测异常值 - 基于稳健非线性回归和错误发现率的新方法》,BMC Bioinformatics 2006, 7:123.