许多统计学书籍开篇都会定义各种可能需要分析的变量类型。这一框架由S. 史蒂文斯提出,并于1946年发表。
分类变量(也称为名义变量)用于描述互斥但无序的类别。例如,您的研究可能比较五种不同的基因型。如果您愿意,可以用数字对这五种基因型进行编码,但这种顺序是任意的,任何计算(例如计算平均值)都将毫无意义。
序数变量是指其顺序重要,但数值之间的差异不重要的变量。例如,您可以要求患者在1到10的量表上表达他们所感受到的疼痛程度。 评分7表示比评分5更痛,而评分5又比评分3更痛。但7与5之间的差异可能与5与3之间的差异不同。这些数值仅仅表达了排序关系。另一个例子是电影评分,从*到*****。
间隔变量是指两个数值之间的差异具有实际意义的变量。100度与90度之间的温差,与90度与80度之间的温差是相同的。
比率变量兼具间隔变量的所有特性,同时对0.0有明确的定义。当变量等于0.0时,表示该变量不存在。身高、体重、酶活性等变量属于比率变量。以华氏度或摄氏度表示的温度则不属于比率变量。在这两种量表中,0.0度并不意味着“无热量”。 然而,以开尔文(K)为单位的温度属于比率变量,因为0.0开尔文确实意味着“无热量”。另一个反例是pH值。它不属于比率变量,因为pH=0仅表示1摩尔的H+,而“摩尔”的定义相当任意。pH值为0.0并不意味着“无酸度”(恰恰相反!)。 在处理比率变量(而非间隔变量)时,可以考察两个测量值之间的比值。4克的重量是2克的两倍,因为重量是比率变量。100摄氏度的温度并非50摄氏度的两倍,因为摄氏温度不是比率变量。pH值为3的酸性并非pH值为6的两倍,因为pH值不是比率变量。
可以进行计算…… |
名义型 |
序数 |
间隔 |
比率 |
频率分布 |
是 |
是 |
是 |
是 |
中位数和分位数 |
否 |
是 |
是 |
是 |
和或差 |
否 |
否 |
是 |
是 |
均值、标准偏差、均值的标准误差 |
否 |
否 |
是 |
是 |
比率或变异系数 |
否 |
否 |
否 |
是 |
如果您正在参加统计学考试,这很重要,因为这类概念很容易被考到。
这对数据分析重要吗?这些概念大多显而易见,但给不同类型的变量命名有助于避免错误,比如计算一组邮政编码的平均值,或者计算两个pH值的比值。除此之外,给不同类型的变量贴上标签其实并不能真正帮助您规划分析或解释结果。