Please enable JavaScript to view this site.

参数的单位

参数 β0 的单位与 Y 值(因变量)相同。

其他最佳拟合参数的单位为 Y 变量的单位除以相应 X 变量的单位。

再次考虑本示例模型:

血压 ~ 截距 + 年龄 + 体重 + 性别

以及其数学表达式:

血压 = β0 + β1*年龄 + β2*体重 + β3*性别[男性]

在此模型中,β0 是模型截距的估计值,其单位为因变量 Y 的单位,即 mmHg。当所有连续型预测变量均为零,且所有分类型预测变量均设为参考水平时,β0 即为 Y 的预测值。 对于本示例(以及许多其他情况)而言,这有些荒谬,因为它将代表年龄=0且体重=0时女性(假设性别的参考水平为“女性”)的平均血压! 在这种情况下,最好将其视为模型中的一个常数。然而,当通过插值使用不同的(非零)预测变量值来预测因变量的值时,这个常数就显得非常重要。

如果血压以毫米汞柱(mmHg)为单位,年龄以年为单位,那么变量 β1 的单位就是 mmHg/年。它表示在纠正了性别和体重差异后,年龄每增加一岁,血压平均上升的数值。

如果体重以千克为单位,则 β2 的单位为 mmHg/kg。它表示在调整了年龄和性别差异后,体重每增加 1 千克,血压平均上升的数值。

性别是一个无单位的分类预测变量。Prism 会自动对分类变量进行编码以供回归分析使用,并在进行虚拟编码时选择一个默认参考水平(该默认参考水平可通过回归对话框中的“参考水平”选项卡进行更改)。 在此情况下,“女性”水平被设为参考水平,因此女性编码为 0,男性编码为 1。因此,β3 的单位为 mmHg。它表示在考虑年龄和体重差异后,男性与女性之间的平均血压差。

在 Prism 生成的结果中,您可以通过观察哪个分类变量的水平未获得参数估计值来判断该水平是否为参考水平,因为该水平将是唯一未获得参数估计值的水平。

标准误差、t 统计量和置信区间

要真正了解模型中参数的最佳拟合值,唯一的方法是收集无限量的数据。由于无法做到这一点,Prism报告的最佳拟合值在一定程度上会受到选择受试者时随机变异性的影响。 Prism 通过为每个参数报告 95% 置信区间来体现这种不确定性。这些置信区间既考虑了研究中的样本数量,也考虑了数据相对于模型预测值的离散程度。如果分析的假设成立,则可以 95% 的置信度认为该参数的真实最佳拟合值位于该置信区间内。

Prism 还会显示模型中每个参数的标准误差。这些数值虽难以直接解释,但用于计算每个系数的 t 统计量和 95% 置信区间。Prism 展示这些数值是为了便于将其结果与其他软件的结果进行比较。

Prism 还会报告每个参数的 t 统计量的绝对值,其计算方式为参数值除以其标准误差。对于 Poisson回归,Prism 则报告 z 值的绝对值。

95% 置信区间是参数的标准误差乘以一个临界 t 比值(该比值由一个基于样本量的常数确定),并将该乘积加到或减去估计值。

分类预测变量的水平参数估计

当分类预测变量被纳入回归模型时,Prism 会自动使用“虚拟编码”对该变量进行编码。此过程会在后台生成若干个新变量,其数量等于原始分类变量的水平数减一。换言之,如果某个分类预测变量有 5 个独特水平(例如 A、B、C、D 和 E),虚拟编码将生成 4 个新变量。 如果一个分类预测变量只有两个独特水平(例如男性和女性),虚拟编码将只生成一个新变量。通过这种方式,除一个水平外,分类预测变量的每个水平都会获得一个用于回归分析的新变量。此外,还会为这些新变量中的每一个估计一个β系数。获得新变量或回归系数的水平即为参考水平

这些参数估计值(系数)会在回归分析的“表格结果”中按分类变量的每个水平列出。由于变量名称将采用“变量[水平]”的形式,因此判断哪个系数对应哪个具体水平相对简单。 例如,在“性别”变量中,系数 β3 对应于 Gender[Female],表示在控制了年龄和体重差异后,女性的平均血压比男性高(或低)多少。