Please enable JavaScript to view this site.

Navigation: 回归原理 > 简单逻辑回归的原理

简单逻辑回归的目标

Scroll Prev Top Next More

当因变量(Y变量、因变量、响应变量等)仅有两种可能的结果时,会使用逻辑回归,其目的是建模观察到“成功”的概率。在此意义上,“成功”仅指这两种可能结果中的一种,具体应基于您的实验设计。 与统计学中的许多术语一样,此处的“成功”含义与我们通常所用的略有不同。例如,在研究人群中某种罕见疾病的发病率时,您可能关注的是个体患上该疾病的概率。在这种情况下,仅为了构建模型,您会将患病视为“成功”。

再看另一个例子:假设您获得了一组数据集,其中包含学生为考试所花费的时间以及是否通过考试的结果。您可能会预期,学生为考试准备的时间越长,通过考试的概率就越高。 在此情境下,“成功”即指学生通过考试。然而,逻辑回归中的Y变量可以是任何内容,只要它只能取两个可能值中的一个:是/否、通过/未通过、存活/死亡等。换言之,结果变量必须是“二元”的。 通常,这些结果会被编码为“1”(表示“成功”)或“0”(表示“失败”)。请注意,在我们的例子中,如果给出了每位学生的成绩(以百分比形式),您可能会考虑进行线性或非线性回归。然而,由于我们的结果是二元的,逻辑回归才是合适的选择。

从某种意义上说,简单逻辑回归可以视为简单线性回归的扩展,用于处理二元结果的情况:简单线性回归和简单逻辑回归都构建了模型,通过这些模型,您可以根据已知的单一输入值(X)来预测结果值(Y)。正因如此,在思考线性回归与逻辑回归的异同时,有两点非常重要:

1.当结果变量为连续型时,线性回归适用;当结果变量为二分类时,逻辑回归适用。若试图对二分类结果变量使用线性回归,结果将无法(很好地)奏效。

2.逻辑回归生成的模型允许您根据给定的 X 值预测成功的概率。输入到模型中的数据仅包含实际结果(在给定的 X 值下,观察到成功或未观察到成功)。

以下各节将对这两个主题进行更详细的讨论。