GraphPad Prism 11 Statistics Guide - Cox 比例风险回归的残差

Zoom Window Out
Larger Text | Smaller Text
Hide Page Header
Show Expanding Text
Printable Version
Save Permalink URL

Navigation: 使用 PRISM 进行统计分析 11 > 生存分析 > Cox 比例风险回归结果

Cox 比例风险回归的残差

在深入探讨 Prism 报告的 Cox比例风险回归残差的具体数值之前，必须指出：这些残差并非传统意义上的残差。对于线性和非线性回归而言，残差代表观察值与模型估计值（具体而言，即模型对该观察值预测的均值）之间的差值。

遗憾的是，Cox比例风险回归中的残差概念并未采用这一定义。相反，Cox比例风险回归中作为残差呈现的数值，仅仅是一组被提出并用于解答Cox回归中诸多问题的指标 - 这些问题在其他类型的回归中通常由经典残差来解答。下文将简要说明Prism在Cox比例风险回归中提供的各项残差图。

比例风险假设是否成立？

这个问题是Cox比例风险回归分析的核心（其名称中就明确体现了这一点！）。其基本思想是：总体中每个个体的目标事件发生情况均由单一的基础危险率函数决定，而每个个体在任意时间点的具体危险率，仅仅是该基础危险率的缩放版本。从估计的β系数角度来看，也可以理解这一假设。若要使比例风险假设成立，这些参数估计值必须随时间保持恒定。

为了检验这一假设，Prism 提供了两种不同的图表。第一种是标度化 Schoenfeld 残差随时间/行序变化的图。重要的是，模型中的每个参数都会有一组标度化 Schoenfeld 残差。这使得 Schoenfeld 残差区别于 Prism 为 Cox比例风险回归提供的其他类型残差（后者在输入数据中每条观测值对应一个残差）。其原理在于：当将特定参数的标准化Schoenfeld残差绘制在时间坐标轴上时，这些残差应以零点处的水平线为中心。若残差中存在趋势，则可能表明该参数估计值随时间存在某种时间依赖度（从而违反了分析中的比例风险假设）。

另一种可用于检验比例风险假设的图表是“对数减对数”图（将 Ln(-Ln(S(t))) 随时间变化绘制在坐标系中，针对输入数据中定义的多个组别）。通过参数对话框中的控件，Prism 允许您指定不同的组别（由预测变量值定义）来绘制估计的生存曲线。在绘制这些生存曲线的负自然对数的自然对数（Ln(-Ln(S(t)))）随时间变化的图时，每组数据应大致呈直线。此外，如果比例风险假设成立，则对于任何给定组，这些直线应相互平行。因此，如果这些直线相交，则极有可能违反了比例风险假设。

观测数据中是否存在异常值？

可以绘制偏差残差和马丁格尔残差与线性预测因子（XB）或观测值的风险比的关系图，同时也可以绘制舍恩费尔德残差与时间或行序的关系图，以检查输入数据中是否存在异常值。

偏差残差和马丁格尔残差均用于识别异常值，即那些发生目标事件的经过时间远长于模型预测的个体，或是发生目标事件的时间远早于模型预测的个体。对于这些残差，较大的正值表示发生目标事件的时间早于模型预测，而负值则表示“存活”至目标事件发生的时间长于模型预测。这两类残差的主要区别在于其分布和偏斜度。马丁格尔残差的理论最大值为+1，但可能取任意大小的负值，导致某些值看似异常值（即生存时间比预测更长的个体），但实际上并非异常值。因此，建议改用偏差残差。这些值更均匀地围绕零点分布，且正负方向的数值分布更为均衡。

当以时间为横轴绘制时，Schoenfeld残差也可用于识别数据中的异常值，但这些残差实际上用于发现对模型参数影响极大的观测值。与缩放后的Schoenfeld残差类似，定义模型中的每个参数都对应一组残差值。通过“设置图表格式”对话框，可以循环切换要在生成的图形上绘制的具体残差。对于这些图表，残差值绝对值越大，表明该观测值对所选参数的影响越大。

预测变量是否呈线性关系？

Cox比例风险回归模型的另一个假设是，对数风险率与参数估计值之间存在线性关系。回顾一下，Cox比例风险回归模型为：

或者换言之：

在此形式下，可以看出 β 的每个值都应与 log(危险率) 呈线性关系。通过绘制偏差残差或马丁格尔残差与预测变量值的散点图，可以检验这一线性假设。对于线性预测变量，无论预测变量取何值，这些残差都应大致集中在零点附近。若在不同预测变量值下观察到残差的趋势，则可能表明偏离了线性关系。与利用偏差残差和马丁格尔残差检查数据中异常值的情况类似，由于偏差残差在零点附近的分布更为均匀，因此在检验预测变量的线性关系时，同样建议使用偏差残差。

拟合优度如何？

Prism 为 Cox 比例风险模型提供的最后一种残差图是 Cox-Snell 残差与 Nelson-Aalen 累积危险率生存估计量的对比图。与 Kaplan-Meier 生存函数估计量类似，Nelson-Aalen 累积危险函数估计量是累积危险率的非参数估计。Cox-Snell 残差定义如下：

换言之，第 i 个观测值的 Cox-Snell 残差等于该观测值的估计累积危险率（Prism 在结果的“个体值”选项卡中报告此值）。

其原理在于：若模型与数据拟合良好，将Cox-Snell残差（即模型估计的累积危险率值）与Nelson-Aalen累积危险率估计量（一种非参数估计）作图，应呈现一条直线。对于拟合良好的模型，情况确实如此，这些图表常被用于展示模型的拟合优度。但这里存在一个问题！已有大量研究表明，只有当模型拟合特别差时，Cox-Snell残差与累积风险的Nelson-Aalen估计量之间的关系图才会呈现出非线性趋势。换言之，仅仅因为该图呈现直线关系，并不能证明模型与数据拟合良好。

Please enable JavaScript to view this site.

比例风险假设是否成立？

观测数据中是否存在异常值？

预测变量是否呈线性关系？

拟合优度如何？