在绘制箱线图之前,不妨先考虑使用小提琴图。小提琴图确实更胜一筹!
创建箱线图
Prism 允许您根据输入到“列”表中的数据堆栈,或输入到“XY”或“分组表”中的并列重复数据,创建箱线图。

箱体
箱体始终延伸于第25至第75百分位数之间。这些边界有时被称为图的“铰链”。令人惊讶的是,计算这些百分位数值的方法有多种。Prism采用标准方法,但与Excel所用方法不同。
箱体中间的线绘制在中位数处。您无法选择其他数值,但 Prism 还允许您在均值处添加一个“+”符号。
须线的位置
Prism 提供了六种在箱线图中绘制须线的方法:
▪最小值到最大值。须线向下延伸至最小值,向上延伸至最大值。
▪Tukey。详见下文。
▪10%至90%分位数。须线向下延伸至第10百分位数,向上延伸至第90百分位数。须线上下方的数据点将作为单独的点显示。
▪第 5 和 95 百分位数
▪2.5 和 97.5 百分位数
▪第 1 和 99 百分位数
▪最小值至最大值,显示所有数据点。此方法绘制从最小值向下延伸至最大值的须线,同时将每个单独数值作为数据点叠加在图表上。
其他选项
▪选择边框颜色和粗细,并为方框填充颜色。
▪将均值绘制为“+”符号。
▪选择箱体的填充图案,并选择设计(图案)和颜色。
关于箱线图的更多信息
Tukey 法如何绘制须线和异常值
1.计算四分位距(即第25百分位数与第75百分位数之间的差值)。将其称为IQR。
2.计算 75 百分位数加上 1.5 倍 IQR。如果该值大于(或等于)数据集中的最大值,则将上须线绘制至最大值。否则,将上须线止于小于 75 百分位数加上 1.5 倍 IQR 之和的最大值处,并将大于该值的任何数值作为单独的数据点绘制。
3.计算第25百分位数减去1.5倍IQR。若该值小于数据集中的最小值,则将下须画至最小值处。否则,将下须止于大于第25百分位数减去1.5倍IQR的最小值处,并将所有大于该值的数值作为单独数据点绘制。
关于图基箱线图的说明
▪为何采用1.5倍四分位距?这并无统计学依据;这仅仅是Tukey的个人选择,而他正是箱线图这一概念的发明者。
▪当采用Tukey法绘制须线时,须线的两端有时被称为内围栏。
▪单独绘制的值有时被称为异常值,但“异常值”在格鲁布斯检验或其他异常值检验中的定义有所不同。在从高斯分布中抽取的数据中,根据图基规则发现一个或多个“异常值”的概率取决于样本量。
▪若每组仅输入三个数值(n=3),Prism 将绘制中位数和范围。它不会绘制百分位数,并将忽略您对绘制须线方式的选择。
▪采用 Tukey 法时,两条须线末端始终位于与样本中某个数值相等的点上。因此,两条须线的长度通常并不相同。
▪“箱线图”和“箱线图”这两个术语常被互换使用,尽管最初“箱线图”用于描述带有图基式箱线(围栏)的图,而“箱线图”则用于描述箱线向下延伸至最小值、向上延伸至最大值的图。
五数摘要
“五数摘要”一词用于描述由五个数值组成的列表:最小值、第25百分位数、中位数、第75百分位数和最大值。当箱线图的须线延伸至最小值和最大值时,绘制在箱线图中的正是这五个数值。
“异常值”一词
“异常值”一词有多种定义。箱线图中位于箱体两端须线之外的个别数据点有时被称为异常值,但这种定义与格鲁布斯(Grubbs)或其他异常值检验所采用的定义并不一致。
如何通过输入最小值、最大值、中位数以及第25和第75百分位数(而非原始数据)来创建箱线图
通常,Prism 会根据原始数据生成箱线图。您输入一组数值,Prism 会计算范围和百分位数来绘制箱线图。
如果您想直接输入最小值、第25百分位数、中位数、第75百分位数和最大值,则需要稍微“耍点小聪明”。Prism 不会识别您输入的是这些值,而是会像您输入原始数据那样生成图表。 如果您仅输入这五个数值,Prism 虽然会正确计算出最小值、最大值和中位数,但其计算出的第 25 百分位数和第 75 百分位数将不正确。
这里有一个小窍门:将中位数输入三次(而不是一次),同时输入最小值、最大值以及第25和第75百分位数。对于每个组,在一列的不同行中输入七个值(顺序无关紧要)。
▪最小值
▪第25百分位数
▪中位数
▪中位数
▪中位数
▪第75百分位数
▪最大值
您无法“告知”Prism 这些值并非原始数据,因此它会“认为”它们是原始数据,并据此从这七个值中计算出最小值、最大值、中位数和四分位数,然后绘制这些计算结果,而这些结果恰好与您输入的数值完全一致。 如果您使用此变通方法根据汇总数据创建箱线图,将均值绘制为“+”号的选项将无法生效。它会根据您输入的数值计算均值,而该均值很可能与数据的实际均值不一致。