Please enable JavaScript to view this site.

本指南将带您逐步了解如何使用 Prism 进行简单逻辑回归分析。逻辑回归功能是在 Prism 8.3.0 版本中新增的

数据

首先,我们需要从“欢迎”对话框中创建一个新的 XY 数据表

为了便于本教程演示,我们将使用示例文件中“相关与回归”部分提供的“简单逻辑回归”样本数据。要使用该数据,请在列表中点击“简单逻辑回归”,然后点击“创建”。随后您将看到一组包含两列的数据:X列为“学习时长”,Y列为“考试通过?”。

该数据记录了125名学生为备考所花费的时间及其考试结果:学生是否通过(数据表中输入为1)或未通过(数据表中输入为0)?

开始分析

要对该数据集执行简单逻辑回归,请点击工具栏中的“简单逻辑回归”按钮(如下图所示)。或者,您也可以点击工具栏中的“分析”按钮,然后从可用的 XY 分析列表中选择“简单逻辑回归”。

分析对话框

点击“简单逻辑回归”按钮后,将显示该分析的参数对话框。在本操作指南中,我们无需更改任何默认选项。下文将讨论其中部分选项的设置效果,有关这些选项的更多信息可在此处查阅

点击“确定”后,系统将跳转至主结果表,相关内容将在下一节中进行说明。

简单逻辑回归的结果

参数估计

在结果表中首先映入眼帘的是 β0β1 的控制数据,以及相应的标准误差和 95% 置信区间。

根据这些参数与“对数几率”的关系,它们有时分别被称为“截距”和“斜率”。

优势比

由于很难直接解读 β0β1,因此通常会参考优势比及其 95% 置信区间(在结果表的下方报告)。

关于优势比的更详细解释可参见此处,但 β1 的优势比告诉我们:X 每增加 1,成功的几率就会乘以 β1 的值。以这些结果中的数值为例。回顾一下,X 代表学习时长。因此,优势比 3.934 表明,学习时间每增加 1 小时,通过考试的几率就会增加近 4 倍!

如果您尚未了解概率与几率之间的关系,这里有一个简要总结:

几率 = 成功概率 / 失败概率

由于失败概率即为 1 - 成功概率,我们可以将其写为:

几率 = (成功概率) / (1 - 成功概率)

例如,假设成功概率为75%,则几率计算如下:

几率 = 0.75 / (1 - 0.75) = 0.75 / 0.25 = 3

通常,我们会说“几率是3:1”(读作“三比一”)。

X 在 50% 时

Prism在简单逻辑回归中报告的另一个关键值是:当预测成功概率为50%(或0.5)时的X值。有趣的是,利用上述几率公式,我们可以发现当概率为50%时,几率等于1(也称为“平赔”)。 在本例中,50% 时的 X 值为 3.37,这意味着对于那些学习了 3.37 小时的学生,通过考试的几率为 1:1(即 50% 的通过几率……不太理想!)。

若将此结果与优势比结合,我们便能快速推算出学生多学习一小时时的通过几率与几率。请记住,Prism报告中的优势比告诉我们,当X增加1时,几率会增加多少倍。 我们知道当X为3.37时,几率为1,且优势比为3.934。因此,将X增加1(从3.37增加到4.37),会得到新的几率为1×3.934,即3.934。这就是学习4.37小时(仅多学习1小时)的学生预计的通过几率。

将该几率转换为概率很简单:

几率 = 3.934 = (成功概率)/(1 - 成功概率)

3.934 × (1 - 成功概率) = 成功概率

3.934 - 3.934*(成功概率) = 成功概率

3.934 = 成功概率 + 3.934*(成功概率)

3.934 = (成功概率) * (1 + 3.934)

3.934 = (成功概率) * 4.934

成功概率 = 3.934/4.934

成功概率 = 0.797 或 79.7%

逻辑回归曲线

如果我们暂时离开结果表,可以看看逻辑回归根据我们的数据绘制的曲线。下图证实了我们在前几节中的一些观察结果:

该图中的曲线描绘了通过考试的预测概率(Y)与学习时长(X)的关系。正如我们所讨论的,我们可以迅速发现,当学习时间为 3.37 小时时,通过考试的预测概率为 50%:

我们还可以通过这张图表验证关于优势比的论点。我们可以看到,当学习时间增加一小时(总计达到 4.37 小时)时,通过考试的预测概率会升至约 80%:

实际上,您可以利用这条曲线来确定任意给定学习时长下的考试通过预测概率。下一节将讨论如何根据输入的 X 值计算相应的预测概率

行预测

若切回简单逻辑回归的主结果表,您会在顶部看到一个名为“行预测”的标签页。点击该标签页后,Prism将提供所有输入X值的预测概率完整列表:

该表格提供了数据表中所有 X 值的预测概率。这既包括数据中已拟合的 X 值,也包括未关联 Y 值而单独输入的 X 值。 例如,假设您想知道在该模型下,学习时间为5.7小时时的考试通过概率。虽然该数据集中的125名学生中无人学习了5.7小时,但您可以返回原始数据表,在X列底部输入5.7(无需关联Y值),然后返回“行分类表”:

该结果表明 - 基于对125名学生的观察 - 如果一名新学生为同一场考试学习5.7小时,其通过概率将达到96.1%!

假设检验

如果我们点击返回结果表的“表格结果”选项卡,可以继续探究简单逻辑回归报告的其他结果。结果的下一部分提供了两种不同的方法来检验模型与数据的拟合程度。虽然这些检验非常相似,但要解读结果,理解每种方法的工作原理以及它们所检验的假设至关重要。

根据本数据集的结果,我们可以得出结论:学习时间(由系数 β1 表示)的影响绝对不为零;换言之,学习时长对考试通过概率具有明确的影响。

ROC曲线与ROC曲线下面积

结果的下一部分专门讨论了所谓的 ROC 曲线。本次分析的 ROC 曲线在 Navigator 的“图表”部分中提供,如下所示:

理解 ROC 曲线需要一些经验,但归根结底,这些图表向您展示的是模型正确分类成功案例的能力与其正确分类失败案例的能力之间的关系。模型通过设定一个阈值来对观察值进行分类。任何预测概率大于该阈值的被分类为 1,而任何预测概率小于该阈值的被分类为 0。 若设置极低的分类临界值,几乎可以肯定能正确分类所有观测到的成功案例。观测成功案例中被正确分类的比例称为“灵敏度”,并绘制在 ROC 曲线的 Y 轴上(Y 值为 1 表示成功案例被完美分类,Y 值为 0 表示成功案例完全被误分类)。

然而,若分类临界值设定过低,您很可能也会将许多失败案例错误地归类为成功。特异性是指正确归类为失败案例的比例,而“1-特异性”则绘制在 X 轴上(因此 X 值为 0 表示对失败案例的完全归类,X 值为 1 表示对失败案例的完全误判)。

可以想象,随着阈值的变化(从 0 到 1),被正确(或错误)分类的观察到的成功与失败之间将存在权衡。这种权衡正是 ROC 曲线所展示的:随着敏感度增加,特异性必然下降(即 1-特异性必然上升)。ROC 曲线上的每个点代表一个不同的阈值,并具有相应的灵敏度和特异性值。

ROC曲线下面积(AUC)是衡量拟合模型正确分类成功/失败情况的指标。该值始终介于0到1之间,下面积越大,表示模型的分类能力越强。 在本例中,ROC曲线(如下图所示)的AUC值为0.8889,该值与AUC的标准误差、95%置信区间及P值(零假设:AUC为0.5)一同列于结果表中。如需了解更多信息及相关数学原理,请参阅关于逻辑回归ROC曲线的详细说明

拟合优度与模型补充信息

在计算结果的最后部分,Prism 提供了一些额外指标,旨在概括模型对给定数据的拟合程度。其中前两个是 Tjur 的 R 平方和 Cox-Snell 的 R 平方,尽管名称中含有“R 平方”,但这些指标的解释方式与线性和非线性回归中的 R 平方截然不同。 相反,这些值被称为伪R平方值,它们提供了关于模型拟合的不同类型的信息。对于这些指标,计算出的值将在0到1之间,数值越高表明模型与数据的拟合度越好。

在提供的两个伪R平方值中,Tjur的R平方更易于计算和解读:首先计算观测到的成功案例的平均预测成功概率,以及观测到的失败案例的平均预测成功概率;然后计算这两个值之间绝对值。这就是Tjur的R平方!

Prism报告的最后一项指标是模型偏差。该值的计算是简单逻辑回归报告的各项指标中难度最大的之一,因此本文将不作详细说明。不过,该指标提供了一个数值估计,反映了模型(采用结果中给出的参数)生成观测数据的“可能性”。 听起来可能有些令人困惑,但关键在于:若您正在比较多个模型以描述同一组数据,模型偏差值越小,则表示模型拟合度越高(模型偏差不能为负值,偏差为零表示模型与数据完美契合)。

方程与数据摘要

Prism 提供的简单逻辑回归最终信息包括模型方程(以对数几率形式给出)以及数据摘要,其中包含数据表的行数、被跳过的行数,以及这两者之间的差值(即分析中的观察值数量)。此外,数据摘要中还提供了 1 的总数和 0 的总数。 最后,还提供了三个比率:观测值数与参数数之比、1的个数与参数数之比,以及0的个数与参数数之比(我们建议逻辑回归中后两个比率应至少为10)。