逻辑回归用于结果变量(Y 变量、依赖度变量、响应变量等)只能有两种可能结果的情况,其目标是模拟观察到成功的概率。从这个意义上讲,"成功 "仅仅是指这两种可能结果中的一种,而且应该基于您的实验设计。与统计学中的许多术语一样,这里的 "成功 "与我们通常习惯使用的含义略有不同。例如,在研究一种罕见疾病在人群中的发病率时,您可能感兴趣的是个体患上这种疾病的概率。在这种情况下,如果仅仅是为了构建模型,您会把得这种病视为 "成功"。
再看一个本示例,假设给您一个数据集,其中除了包含学生是否通过考试的信息外,还包含学生为考试学习的时间长度。您可能会认为,学生复习考试的时间越长,通过考试的可能性就越大。在这里,"成功 "就是学生通过了考试。不过,逻辑回归的 Y 变异性可以是任何东西,只要它只能取两个可能值中的一个:是/否、通过/失败、活着/死亡等。另一种说法是,结果变量必须是 "二元 "的。通常,这些结果被编码为 "1"(表示 "成功")或 "0"(表示 "失败")。请注意,在本示例中,如果您得到了每个学生的成绩(百分比),您可能会考虑进行线性和非线性回归。但是,由于我们的结果是二元的,因此逻辑回归是合适的选择。
从某种意义上说,简单逻辑回归可以看作是简单线性回归的扩展,用于处理二元结果的情况:简单线性回归和简单逻辑回归都能建立模型,通过知道单一输入值(X)就能预测结果值(Y)。因此,在思考线性回归和逻辑回归的异同时,有两点非常重要:
1.线性回归适用于连续结果,逻辑回归适用于二元结果。试图在二元结果变量上使用线性回归是行不通的。
2.逻辑回归会生成一个模型,让您可以在给定 X 值的情况下预测成功的概率。您输入模型的数据将只包括实际结果(在给定的 X 值下,观察到成功或不成功)。
以下章节将详细讨论这两个主题