Prism 目前提供了三种不同的多元回归模型框架:线性、Poisson回归和逻辑。本节介绍线性回归和Poisson回归的相关选项。有关如何进行多元逻辑回归的更多信息,请参阅本指南中的相关章节。
当因变量 Y 为连续变量时,应使用多元线性回归。Prism 通过最小化数据点与曲线之间垂直距离的平方和来拟合模型。该方法通常被称为最小二乘回归。若您假设残差(数据点与预测值的距离)服从高斯分布,则此方法是合适的选择。
当每个 Y 值都是对象或事件的计数(0、1、2、…)时,应使用Poisson回归。这些必须是实际计数,且未经过任何标准化处理。 如果仪器显示您的样本每分钟有 98.5 次放射性衰变,但您要求计数器对每个样本计数 10 分钟,那么它计数到的就是 985 次放射性衰变。这就是您在Poisson回归中应输入的数值。如果 Y 值是归一化计数(而非实际计数),则不应选择Poisson回归。
其中一个变量是因变量 Y,您必须告知 Prism 该变量是哪个。多元回归的目标是找到能最好地预测该变量的模型。
请注意,Y变量必须是连续变量。如果您的因变量(Y)是二元变量(只有两个可能的取值),则应使用逻辑回归而非多元回归。
Prism 要求您精确定义要拟合的模型。它无法自动为您选择变量或交互作用组合。阅读原因。不过,Prism 可以比较两个模型。
截距是指当所有连续预测变量均为零且分类预测变量均设为参考水平时,预测变量的数值。您通常都希望包含截距,因此 Prism 会拟合其值。除非有非常充分的理由,否则请勿将其从模型中移除,因为这样做极少有意义。从模型中移除截距等同于将其设为零。
每个主效应都是将一个参数与回归系数(参数)相乘。 您几乎总是希望在模型中包含所有主效应。对于每个连续型预测变量,仅需一个系数。分类型预测变量所需的系数数比该分类变量的水平数少一个(这是由于变量编码过程所致)。如果您取消选中某个主效应,该预测变量实质上将不参与分析(除非该变量属于下文所述的交互作用或转换项)。
每个双向交互作用将两个参数相乘,并将该乘积再乘以一个回归系数(参数)。双向交互作用通常(但并非总是)用于多元回归。为何称为“交互作用”?因为模型使用了两个变量的乘积。当然,两个变量可以以多种方式相互作用,而不仅仅是通过将两个变量相乘所能捕捉到的那种方式。
每个三向交互作用将三个参数相乘,并将该乘积再乘以一个回归系数(参数)。三向交互作用的使用频率低于二向交互作用。
Prism 允许您在模型中使用任何连续预测变量的平方、立方或平方根。如果您希望 Prism 在定义多元回归模型时提供其他变换选项,请告知我们。
在本示例中,变量 A 表示以 mmHg 为单位的血压,变量 B 表示以年为单位的年龄,变量 C 表示以 kg 为单位的体重,变量 D 表示性别,其取值为“男性”和“女性”。若将变量 A 设为因变量(结果变量),并将变量 B、C 和 D 纳入模型,则所得模型可表示为:
血压 ~ 截距 + 年龄 + 体重 + 性别
在此情况下,拟合数据的完整数学模型为:
血压 = β0 + β1*年龄 + β2*体重 + β3*性别[男性]
Prism 会寻找使数据中结果变量的实际值与预测方程预测值之间的差值平方和最小化的系数(β值)。
该模型非常简单,但令人惊讶的是它竟如此实用。以血压为例,该模型假设:
•平均而言,血压每增加(或减少)一岁,就会上升(或下降)一定数值(即年龄项β系数的控制数据)。这一数值对所有年龄段、所有体重的男性和女性而言都是相同的。
•平均而言,血压每增加(或减少)一磅体重,就会上升(或下降)一定数值(即“体重”的β系数控制数据)。这一数值对所有年龄段和体重的男性与女性而言均相同。
•平均而言,男性的血压比女性高(或低)一定数值(即“性别[男性]”的β系数控制数据;在此情况下,“女性”是预测变量“性别”的参考水平)。这一数值对所有年龄和体重的人群均相同。
•该模型的截距较难直观理解,因为它代表了一位年龄和体重均为零的女性(即“性别”变量的参考水平)。 显然,该值并不代表现实中可能存在的观测值(年龄和体重均不可能为零),但它是模型中的一个重要参数,可通过插值法用于预测更合理的数值(例如,年龄和体重处于平均水平的女性的血压值)。
从数学术语上讲,该模型为线性模型且不允许交互作用。线性意味着在其他变量保持恒定的情况下,血压与年龄(或与体重)的图表呈直线关系。无交互作用意味着血压与年龄直线的斜率对所有体重以及男性和女性而言都是相同的。
如果您勾选了包含年龄与性别交互作用的选项,模型将显示为:
血压 ~ 截距 + 年龄 + 体重 + 性别 + 年龄:性别
包含交互作用项的完整数学模型为:
血压 = β0 + β1*年龄 + β2*体重 + β3*性别[男性] + β4*年龄*性别[男性]