Please enable JavaScript to view this site.

本页面所述的功能均包含在我们的全新 Pro 和 Enterprise 订阅中。了解更多...

数据表表格格式

Prism 中的多因素方差分析要求将输入数据输入到“多变量”数据表中。此表格格式与用于单因素方差分析和双因素方差分析的“列”或“分组表”不同。

创建“多变量”表格的方法:

1.在“欢迎”对话框(或“新建表格和图表”对话框)中,单击“多变量”选项卡

2.选择“将数据输入或导入到新表格中”

3.点击“创建”

4.输入数据,每行代表一个观测值,每列代表一个不同的变量

多变量表格的结构

多变量数据表中的数据通常采用标准的“数据库”或“整洁”格式。在多变量数据表中:

每行代表一个观测值(一个受试者、一个样本、一个实验单位)

每列代表一个变量

其中一列包含响应变量(您测量的结果)

其余列包含分组变量(定义实验组的因素)

示例:植物生长实验

假设您正在研究肥料类型和浇水频率如何影响植物高度。您的表格可能如下所示:

植物ID

高度

肥料

浇水

1

45.2

有机

每日

2

38.7

每周

3

52.1

合成

每日

4

41.5

有机

每周

5

48.9

合成

每周

6

35.2

每日

...

...

...

...

在本示例中:

因变量:身高(连续变量)

因子1:肥料(3个水平:无、有机、合成)

因子 2:浇水(2 个水平:每日、每周)

PlantID 仅作为标识符(不用于分析)

响应变量(Y变量)

响应变量是您想要分析的结果 - 即您认为受实验因素影响的测量值。

响应变量的要求:

必须为连续型(采用间隔尺度或比率尺度测量)

必须是数值型

在每个组内应呈正态分布

所有数值应采用相同的单位

响应变量的良好示例:

身高(厘米)

体重(克)

血压(mmHg)

基因表达水平(标准化单位)

酶活性(单位/mL)

细胞数(细胞/μL)

吸光度(OD 单位)

温度(°C)

浓度(ng/mL)

完成时间(秒)

肿瘤体积(mm³)

关于缺失值的说明:

Prism中的多因素方差分析会自动剔除响应变量或任何指定分组变量中存在缺失值的行。分析仅使用完整行

请确保缺失数据确实是随机缺失,而非与处理方式存在系统性关联

如果缺失值较多,请考虑是否需要改进实验设计或数据收集方法

分组变量(因子)

分组变量(也称为因子或预测变量)是定义实验组的分类变量。

分组变量的要求:

必须是分类型变量(即使是数字,也会被视为类别)

必须具有两个或更多水平(组)

应具有清晰且有意义的标签

可以是文本或数值,但将被视为类别(必须在数据表中将其设为分类变量)

分组变量的良好示例:

处理组(对照组、药物A、药物B、药物C)

基因型(WT、Het、KO)

性别(男性、女性)

年龄组(年轻、中年、老年)

饮食(标准、高脂、高蛋白、低碳水)

细胞系(HeLa、HEK293、CHO、A549)

组织(肝、肾、心、肺、脑)

品系(C57BL6、BALB_c、129S、FVB)

温度(4℃、25℃、37℃)

pH值(pH5、pH7、pH9)

级别命名提示:

尽可能使用描述性名称而非代码

级别名称中避免使用空格(使用下划线:Drug_A 而不是 "Drug A") - Prism 虽能正常处理空格,但在某些情况下,若标签名称并列显示,可能难以区分属于哪个标签(比较:"Drug A B Treatment" 与 "Drug_A B_Treatment")

保持大小写和拼写的一致性 - 若使用字母标识,请在变量内部及跨变量时保持标签命名的一致性。例如,避免在同一个变量中出现“Drug_A”和“B_Drug”。此外,“Drug_A Treatment_B”比“Drug_B B_Treatment”更易于解读

对于数值分类,建议添加前缀以明确其分类性质(如pH5、pH7、pH9,而非仅用5、7、9)

关于数值分组变量:

若存在剂量(0、10、25、50 毫克)或时间(0、2、4、8、24 小时)等数值变量,可在方差分析中将其视为因子,但请注意:

在数据表中必须将其指定为分类变量

方差分析(ANOVA)将忽略值的顺序和间隔

方差分析会将 0、10、25、50 视为与 A、B、C、D 完全等同

对于有序变量而言,这可能并非具有最大检验力的分析方法

可以包含多少个因子?

理论上限:多因素方差分析可处理任意数量的因素。

实际限制:随着因子数量的增加,实验所需的样本量会呈指数级增长。

2个因子,每个有3个水平 = 9种处理组合

3个因子,每个3个水平 = 27种组合

4个因子,每个3个水平 = 81种组合

5个因子,每个3个水平 = 243种组合

若每个组合重复5次且包含4个因子(每个3个水平),则需要405个观测值

结果的解读变得颇具挑战性:

2个因子:2个主效应 + 1个双因素交互作用 = 3个检验

3个因子:3个主效应 + 3个双因素交互作用 + 1个三因素交互作用 = 7个检验

4个因子:4个主要因素 + 6个双因素交互作用 + 4个三因素交互作用 = 14个检验

5个因子:5个主效应 + 10个双因素交互作用 + 10个三因素交互作用 = 25个检验

整理您的数据

一般原则:

1.每行对应一个观测值:每个实验单位(受试者、样本、测量值)都有一行

2.每个变量占一列:不要将一个变量拆分到多列中

3.编码一致:对同一组别始终使用相同的标签

4.数据完整性:尽量减少缺失值

结构良好的数据示例(3个因素:药物 × 性别 × 年龄):

受试者ID

血压

药物

性别

年龄组

101

125

安慰剂

男性

年轻

102

132

安慰剂

男性

年轻

103

118

安慰剂

女性

年轻

104

142

药物A

男性

年轻

105

128

药物A

女性

年轻

106

138

安慰剂

男性

老年

107

145

安慰剂

女性

108

135

药物A

男性

...

...

...

...

...

应避免的常见错误:

不要为同一因子的不同水平设置单独的列:

研究受试者

对照

药物A

药物B

性别

1

45

 

 

男性

2

 

52

 

男性

3

 

 

48

女性

请为该因子使用一列:

研究受试者

响应

处理

性别

1

45

对照组

男性

2

52

药物A

男性

3

48

药物B

女性


如无特殊情况,请避免在不同变量间混合水平:

主题

响应

1

45

男性_对照组

2

52

男性_药物A

3

48

女性_对照组

将独立变量拆分为不同的列:

受试者

响应

性别

处理

1

45

男性

对照组

2

52

男性

药物A

3

48

女性

对照组


请勿使用不一致的标签:

响应

治疗

45

对照组

52

对照组

48

控制

51

ctrl

Prism 会尽力识别哪些标签属于同一组,但仅通过拼写(忽略大小写)来实现这一点。因此,在本示例中,系统会识别出两个不同的层级,而不是一个“Control”层级

请使用一致的标签:

响应

治疗

45

对照组

52

对照组

48

控制

51

对照组

 

重复实验与样本量

什么是重复?

重复是指独立观察结果 - 即接受了处理的单独实验单位。

真正的生物学重复:

不同的动物

不同的细胞培养物(来自不同的传代或制备)

不同的植物

不同的患者

在不同日期进行的不同实验

非真正的重复(伪重复):

对同一动物进行多次测量

来自同一细胞培养制备物的多个孔

对同一样本进行多次读数

技术重复

您需要多少个重复?

最低要求:每种处理组合至少 2 次观测(但这通常不够)

建议

对于初步研究或预期效应较大的情况,每组3-5个重复

典型研究中,每组5-10个重复

当效应可能较小或变异性较高时,每组10-20次重复

随着因素数量的增加,需要更多的重复

功效考量:

重复次数越多 = 检验力越高(更强的真实效应检测能力)

因子/水平越多 = 处理组合越多 = 需要更多的总观测值

高阶交互作用更难检测(需要更多重复次数)

不平衡设计(各组样本量不同)的检验力较低

实用提示:对于一个 2 × 2 × 2 设计(8 种处理组合),每组 5 个重复,您需要 40 个总观测值。对于一个 3 × 3 × 3 设计(27 种组合),每组 5 个重复,您需要 135 个观测值。请据此规划您的样本量!

将数据输入Prism

分步操作指南:

1.打开 Prism 并创建新项目(或添加到现有项目中)

2.点击“新建”以创建新表格

3.在欢迎对话框中,选择“多变量”选项卡

4.点击“创建”

5.输入您的数据:

o在表格中输入或粘贴数据

o每行代表一个观测值

o每列代表一个变量

o使用列标题为变量命名

6.为列命名时请使用描述性标题:

o点击列标题可编辑其名称

o使用清晰易懂的名称,例如“血压”、“治疗”、“性别”

o尽可能避免使用特殊字符或空格

7.检查您的数据:

o响应变量列仅包含数字

o分组变量列中的类别标签应保持一致

o类别名称中无拼写错误

o缺失值应为真正的空白(而非零或占位符文本)

从其他程序导入数据:

与其手动输入数据或将其复制粘贴到 Prism 中,您也可以从 Excel、CSV 或文本文件中导入数据:

1.创建一个新的“多变量”表格

2.使用“文件”>“导入”并选择您的数据文件

3.按照导入向导的提示:

o确认 Prism 已识别列标题

o验证变量类型是否被正确识别

o检查是否有导入错误或警告

数据质量检查

在运行分析之前,请检查您的数据:

1.检查是否有拼写错误和不一致之处

o检查分组变量中是否存在拼写不一致的情况

o示例:“Control”、“control”、“CONTROL”、“Cont”将被视为 4 个不同的组

o使用 Prism 的数据表扫描唯一值

2.检查异常值

o查找看似不可能或不合常理的数值

o调查(不要自动删除!)任何极端值 - 它们可能是真实的,也可能是数据录入错误

3.验证是否已收集所有因子组合的数据

o当 3 个因子分别具有 3、2 和 4 个水平时,应有 3 × 2 × 4 = 24 种处理组合

o检查每种组合是否至少有部分观测值

o如果某些组合缺失(无论是设计使然还是偶然),请考虑您的设计是否仍然合适

4.检查平衡性

o统计每种处理组合中的观测值数量

o理想情况下,所有组合的样本量应相同(平衡设计)

o不平衡设计是可以接受的,但可能导致检验力降低

5.检查数据类型是否合适

o因变量:应为连续型数值数据

o分组变量:应为分类变量(即使以数字表示)

6.检查缺失值

oPrism 将排除响应变量或分组变量中存在缺失数据的任何行

o请确保缺失值不具有系统性(例如,某个处理组中所有缺失值均存在)

常见数据录入错误

错误 1:对同一实验使用多个数据表

错误:为因子的每个水平创建单独的表格

表 1:男性

表 2:女性

正确:使用一个表格,并将“性别”作为分组变量

 

错误 2:在分析前进行求平均

错误:计算各组的平均值并仅输入平均值

正确:输入所有原始观测值;由方差分析(ANOVA)自动计算均值

原因:方差分析(ANOVA)需要原始数据来估计组内变异性。若仅输入均值,Prism将无法进行分析。

 

错误 3:将技术重复视为生物重复

错误:将同一动物的 3 次测量结果视为 3 个独立观察结果

正确:先对 3 个技术重复取平均值,然后将该平均值作为单个观测值

原因:技术重复并非独立;将其纳入会人为地增加样本量,并违反独立性假设。

 

错误 4:对同一变量同时采用连续型和分类型处理

错误:在分析的一部分中将剂量作为连续预测因子,而在另一部分中将其作为分类变量

正确:确定剂量应作为连续变量(使用回归分析)还是分类型变量(使用方差分析),并始终如一地采用

 

示例数据集

简单的双因素设计(处理×性别):

受试者

响应

处理

性别

1

45.2

对照组

男性

2

48.1

对照组

男性

3

43.7

对照组

男性

4

52.3

对照组

女性

5

49.8

对照组

女性

6

51.2

对照组

女性

7

58.9

药物A

男性

8

61.2

药物A

男性

9

57.3

药物A

男性

10

62.1

药物A

女性

11

65.4

药物A

女性

12

63.8

药物A

女性

该设计包含:

2个因素:处理(2个水平),性别(2个水平)

2 × 2 = 4种处理组合

每种组合3次重复

总共12个观测值


更复杂的4因子设计:

植物

植株高度

肥料

浇水

光照

pH

1

42.3

遮荫

酸性

2

45.1

遮荫

酸性

3

48.7

有机

遮荫

酸性

4

51.2

有机

遮荫

酸性

5

55.8

合成

色号

酸性

6

58.3

合成

色号

酸性

...

...

...

...

...

...

该设计包含:

4个因素:肥料(3个等级)、浇水(3个等级)、光照(3个等级)、pH值(3个等级)

3 × 3 × 3 × 3 = 81种处理组合

每种组合显示2个重复

共需162个观测值