在 Prism 7 之前,Prism 仅报告渐近置信区间,这些区间总是以控制数据为对称中心。
对于某些模型中的某些参数,不对称区间更能准确地反映其精度。Prism(从第7版开始)通过剖面似然置信区间提供了这一功能,用户可在非线性回归对话框的“置信度”选项卡中进行选择。其缺点在于:许多用户对此不熟悉,且计算时间较长(但若使用高性能计算机,除非处理海量数据集并选择自定义方程,否则您可能甚至不会察觉到这一差异)。
其原理相当简单。额外的平方和检验用于比较两个模型。
•复杂模型即您所选的模型。结果页面的全部内容均针对该模型。
•简单模型将一个参数固定为常数值。其思路是将该参数固定为不同值,直至找到置信限(如下文所述)。
以下是一个高度简化的算法,大致解释了该方法背后的原理。设平方和为 SS,自由度为 DF。
1.将变量 Delta 设为要计算置信区间(CI)的该参数的标准误差(SE)(然后对其他参数重复此操作)。
2.将该参数固定为控制数据减去 Delta,并再次运行拟合,同时让所有其他参数值变化。记录此次拟合的新 SS 和 DF。
3.使用额外平方和F检验,将原始最佳拟合结果与本次强制参数减小 Delta 值的拟合结果进行比较。第二次拟合将一个参数固定为常数,因此拟合的参数少一个,自由度相应增加一个。计算 P 值。
a.若 P 值小于 0.05,则 delta 过大。将其减小并返回步骤 2。
b.若 P 值大于 0.05,则 delta 过小。将其增大并返回步骤 2。
c.若 P 值非常接近 0.05,则下限置信限等于原始控制数据减去当前 delta 值。
4.将该参数固定为控制数据加上 delta,再次运行拟合,同时让所有其他参数值变化。记录此次拟合的平方和 (SS) 和自由度 (DF)。
5.使用额外平方和F检验,将原始最佳拟合结果与该强制参数增加 delta 的拟合结果进行比较。计算 P 值。
a.若 P 值小于 0.05,则 delta 过大。将其减小并返回步骤 4。
b.若 P 值大于 0.05,则 delta 过小。将其增大并返回步骤 4。
c.若 P 值非常接近 0.05,则上置信限等于原始控制数据加上 delta 的当前值。
6. 对每个参数重复上述步骤。
这将为参数生成一个 100*(1-α)% 的置信区间(在常见的 α=0.05 情况下,即 95% 置信区间)。若要检验“真实参数值等于其控制数据值”这一零假设,对于该置信区间内的任何参数值,该零假设均不会被拒绝。
更正式地表述如下:设 θbf 为参数的控制数据,θhyp 为参数的一个假设的不同值。在 α 显著性水平下,若 θhyp 位于置信区间内,则 θbf = θhyp 的零假设不会被拒绝;若 θhyp 位于置信区间外,则该零假设会被拒绝。
Prism 实际上针对每个参数都采用了 Venzon 和 Moolgavkar(1) 所详述的步骤。该方法为每个参数生成一个剖面似然曲线。对于参数的各种可能取值,算法会拟合曲线(同时优化其他参数),并确定数据来自该模型的似然度。置信区间即为似然度值未显著低于其最大值的参数值范围。 当然,“过低”这一概念有严格的定义。
最大似然值位于参数的控制数据处。当在文献中绘制这些分布曲线时,通常绘制的是似然值的负对数。最大似然值等同于 -log(似然值) 的最小值,因此在这类图表中,最佳拟合值即为 Y 值最低时的 X 值。
若假设所有残差服从高斯分布,则最大化似然函数等同于最小化残差平方和。
• 用于计算上置信限的最终 delta 值可能不等于(甚至远小于)用于计算下限的最终 delta 值。这就是为什么置信区间可能在控制数据周围呈现不对称分布。
•上文提到的 0.05 的 P 值目标仅适用于需要 95% 置信区间的情况。若需 99% 置信区间,则使用 0.01,依此类推。
•参考文献1中(Prism软件采用的)方法比上述描述的要巧妙得多,因此计算量更少。
•通过此方法计算的置信区间仅针对该单一参数。其原理是每个置信区间有95%的概率包含真实参数值。这95%的概率并不适用于所有置信区间的集合。若认为所有置信区间包含各自真实参数值的概率为95%,这种说法是不正确的。
•在计算上述额外平方和F检验时,请注意两个模型的自由度相差一个。这是因为我们固定了一个参数,并让Prism拟合其余参数。 某些文献(2)假设您固定了所有参数,而不仅仅是一个。因此,纳入F检验的两个模型在自由度上相差K,其中K是拟合的参数个数。这些置信区间较宽,我认为其意图是让95%的置信水平同时适用于所有置信区间,而非仅适用于其中一个。Prism并未采用这种方法。在Prism中,被比较的两个模型在自由度上始终相差一个。
•我们采用的方法也由 Watts(3) 描述过。Prism 软件对表 III 中的数据所得到的结果,与他在表 IV 中呈现的结果一致。
•在某些情况下,该方法无法确定其中一个置信限,此时会报告“???”而非具体数值。
1.Venzon DJ, Moolgavkar SH. 一种基于剖面似然度的置信区间计算方法。《应用统计学》. 1988;37(1):87.
2.Kemmer, G., & Keller, S. (2010). Excel 电子表格中的非线性最小二乘数据拟合。《自然协议》,5(2),267–281。http://doi.org/10.1038/nprot.2009.182
3.Watts, D.G. (2010) 非线性模型的参数估计,见 M. Johnson 编著《计算机数值方法精要》第 2 章,Academic Press 2010.