缺失值的处理与估计方法

农业试验中,由于各种因素的影响,很容易造成缺失值,对于缺失值,如果直接删掉,数据就变成了不平衡数据,需要用特殊的模型进行分析,如果定义缺失值,软件会在分析中予以补全分析,在方差分析中基于最小二乘法补全,在REML混合线性模型中,基于REML的方法补全,下面会以例子讲解怎么处理缺失值数据分析,怎么估计缺失数据。

估计缺失值的常用方法

  1. 均值插补。如果数据是有规律的(递增或递减,定序的),用均数补全,如果数据是随机的,用众数补全。

  2. 最小二乘法补全,这是基于最小二乘法的原理,补全数据,使补全后的数据整体的离差平方和最小,这一般是方差分析中处理缺失值的一般方法。
  3. 基于REML的方法估计,REML混线性模型本身可以处理非平衡数据,它也可以作为估计缺失值的一种,它估计出来的缺失值比最小二乘法要准确,应用比较广泛。

处理不平衡数据的方法

  • unbalanced anova,这可以对不平衡数据进行方差分析
  • REML的混线性模型,它可以处理不平衡数据,应用比较广泛

数据案例

数据是3个品种在3个区组的品种表现,其中第3个区组的第3个品种观测值缺失,分析3个品种间是否存在差异。数据如下:

分析方法 1:方差分析(可估计缺失值)

数据处理:*代替缺失值
分析方法:GenStat ANOVA
分析结果如下:

特点:“*”代替缺失值后,GenStat可估算出缺失值数值,并进行方差分析

分析方法 2:REML分析,(可估计缺失值)

数据处理1:删除缺失值
分析方法:GenStat Linear Mixed Models
分析结果如下:

数据处理2:”*”代替缺失值
除上述分析结果外,还可估算缺失值,结果如下:

特点:删除缺失值或者”*”代替缺失值,REML分析都可以很好地比较品种间的差异。但是”*”代替缺失值时,可很好地估算出缺失值,有利于进行其他分析。

分析方法 3:GenStat unbalanced ANOVA

数据处理:删除缺失值
分析方法:GenStat unbalanced ANOVA
分析结果如下:

特点:数据为非平衡数据,删除缺失值后,方差分析报错将会出错,所以采用GenStat unbalanced anova 分析。因为缺失值已删除,所以就不存在缺失值估计了。

结 论

  • 如果想要估计缺失值,用REML混线性模型进行估计,这个比方差分析的最小二乘法估计的更加准确。
  • 如果想要分析不平衡数据,用REML的混线性模型分析,这个比GenStat的unbalanced anova模型更高级,适用范围也更广泛,更重要的是它可以估算BLUE值和BLUP值。

 

了解Genstat软件与培训

申请Genstat试用(点击)

Genstat培训计划 (点击)