为了确认多元逻辑回归是否适用于这些数据,请自问以下问题。
因变量(Y)是否为二分类变量?自变量(Y)只能取两个值,在 Prism 中,这些值必须编码为 0 和 1。
Y 变量的各行是否为独立观察结果?逻辑回归的一个基本假设是,每行数据都是一个独特的、独立的观察结果。独立观察结果的例子是针对 100 名随机选取的人进行的研究,其中 1 表示阳性结果,0 表示阴性结果,且每名受试者记录在一行中。如果对每名受试者进行了多次测量(例如在研究的各个时间点),则这些观察结果就不独立,逻辑回归就不适用。 如果研究对象是50对已婚夫妇,将这些数据视为100个独立观察结果是不恰当的。
该模型是否能很好地拟合并预测数据?所有模型都有误,但有些是有用的……
Prism 提供了多种指标来评估指定模型与输入数据的拟合程度。但需注意,模型拟合及其结果的解读在某种程度上具有主观性。评估特定模型时可考虑以下几点:
•逻辑模型能否有效分类数据?换言之,在设定适当阈值(如0.5)的情况下,模型能否正确预测观测到的0和1?您可在Prism中通过“预测值与观察值”图、分类表、Tjur's R²、ROC曲线以及行分类表来评估这一点。
•逻辑模型是否优于仅截距模型?您可以通过似然比检验来验证这一点。您可能还想运行 Hosmer-Lemeshow 检验。
自变量之间是否存在线性依赖度?如果自变量存在严重的多重共线性,估计的 P 值和标准误差将失去意义。请阅读关于多重共线性的更多内容以获取详细信息。
您是否有足够的数据来确保结果的可靠性?与所有统计建模一样,数据越多越好。在分析结果的“表格结果”页底部,Prism 将报告模型中包含多少个观察值(“已分析行数”)、模型中包含多少个参数,以及这两个值的比率(“观察值数/参数数”)。 一个经验法则是:每个自变量(X)应至少包含十行“0”和十行“1”。
是否存在过拟合?变量的变化是否确实导致了成功概率对数(log(odds))的变化?如果不是,您是否仍希望将这些协变量纳入模型? 有时出于解释目的,或基于您对实验及相关科学原理的理解而设计的实验方案,保留某些变量在模型中是必要的。然而,如果某个变量并非必需,或许只需说明它在其他X预测因子存在的情况下无法帮助预测结果,并将其移除即可。但移除变量存在争议,因此请务必深思熟虑后再行操作。
是否存在模型欠拟合?如果预测性能未达预期,可能是因为遗漏了某些关键变量 - 这些变量要么未被测量,要么未被纳入模型。若关键变量属于未测量的范畴,除了重新收集更多数据外别无他法。但若某些变量是被有意排除在模型之外的,建议重新纳入这些变量,并考察其对模型性能的影响。 您还可以尝试对自变量进行交互作用和变换后拟合模型。