您当前所在位置:

噪声对近红外光谱分析的影响及相应的数学处理方法

2010-10-21

摘要 以玉米籽粒的粉末样品为例,对噪声较高近红外光谱分析仪进行近红外分析的可行性进行了分析。

结果表明,采用四次平均光谱,不采取其他数据处理,使用P15算法,自编软件CAU_N取可以得到很好的预测模型。通过与其他噪声较低近红外分析仪预测结果的对比,噪声较高的光栅型近红外光谱分析仪预测样品的相关系数高达98%,变异系数为6.2%。因此当近红外光谱分析仪器的信噪比低于105时,借助一定的软件技术,仍然可以用于定量分析。

主题词 近红外光谱;噪声;数学处理;数学算法

引言

近红外定量分析技术的分析过程主要是利用一个已知待测成分含量的标准样品集,运用现代统计学的算法建立近红外光谱参数与样品待测成分之间的预测方程,对未知样品的近红外图谱进行预测,从而得到未知样品待测成分的预测值。近红外定量分析技术具有一些独特优点:制样技术非常简单或者不需制备样品;快速分析;同时测定多种组分;可以实现非破坏性和非污染性的测试;样品测试的费用比较低、测试范围广等。因此,近红外定量分析技术在短短十几年的时间里迅速发展起来[1-3]。

现代近红外光谱分析通过数学模型直接由样品对某些波长的吸收特征来计算样品中待测组分的含量,属于一种绝对测量技术。噪声一般对测量的结果有较大的影响。Stark在1986年提出近红外光谱分析仪器的信噪比应该达到105,但是由于各种原因,近红外光谱分析仪的噪声不易达到此要求。近年来由于数学算法和一些光谱数据的数学处理方式和各种专用型仪器的发展[5’6],噪声较高的近红外光谱分析仪能否用于近红外光谱分析引起关注。本实验对信噪比为102~103光栅型近红外光谱分析仪作近红外分析的可行性及相应的光谱数据处理方式和数学算法进行了研究。

1实验材料和仪器玉米籽粒样品51份;光栅型近红外光谱分析仪,傅里叶变换近红外光谱分析仪2台。

2实验方法

2.1玉米籽粒蛋白质含量的测定供试籽粒用Retchl7—140磨磨碎过筛,颗粒达40目左右,在室内平衡水分一天,装入塑料袋,在干燥器中保存。

采用标准凯氏定N法测定样品的蛋白质含量,称为真值。

2.2光谱采集(1)光栅型近红外光谱分析仪:样品充分混匀后,装入样品杯,用模具将样品压成一定厚度、表面平整的测试样品,每次装样量大致一致。扫描样品,得一次扫描光谱;然后旋转样品杯,分别旋转扫描4次,取四次扫描平均光谱。

用BaS04作参比,每扫5个样品,校正背景一次,工作谱区4 000~7 000 cm一。

(2)傅里叶变换近红外光谱分析仪1:装样及测定同(1),仅样品杯不旋转,扫描32次取平均光谱,工作谱区4 000~10 000 cm~。

(3)傅里叶变换近红外光谱分析仪2:样品充分混匀,将带塑料包装的玉米样品放置在积分球样品窗口上,进行光谱扫描,扫描32次取平均光谱,工作谱区4 000~10 oooCm_。

2.3建立数学模型算法的选择对光栅型近红外光谱分析仪采集到的光谱(包括一次扫描光谱和四次扫描平均光谱)不进行其他的数据处理,分别采用偏最小二乘法(PLs),主成分回归法(PCR)和逐步回归法(sRG),以31个样品组成的标样集建立定量分析模型,对剩余16个样品进行蛋白质含量预测,比较预测结果,所有的分析由自编软件cAUNIR软件完成。

2.4数据预处理方法的选择分别采用导数,包括一阶和二阶导数;平滑,导数和平滑三种预处理方法,对光栅型近红外光谱分析仪采集到的光谱(包括一次扫描光谱和四次扫描平均光谱)进行处理,以数据不做其他处理为对照,采用PLs算法,以31个样品组成的标样集建立定量分析模型,对剩余16个样品进行蛋白质含量预测,比较预测结果,所有的分析由自编软件CAUNIR软件完成。

2.5不同近红外分析仪采集到的光谱的比较数据均不做其他数学处理,采用P15算法,对34个样品组成的标样集建立定量分析模型,对剩余17个样品进行蛋白质含量预测,比较三台近红外分析仪所建模型的预测结果,所有的分析由自编软件CAU-NIR软件完成。

3结果与分析

3.1样品的蛋白质含量分布和样品的N珉图谱51个玉米样品的蛋白质含量范围是7.76%~22.03%,样品的近红外光谱图见图1。在波数7 ooo~10 000啪_1傅里叶型近红外分析仪采集的样品信息量很少,因此分析时所用的光谱范围为4 000~7 ooo cm~。

3.2不同算法的预测结果由于3个样品在光栅型近红外光谱分析仪上的近红外光谱缺失,因此随机选取31个样品建立定标集,所有光谱不经其他数据处理,采用不同的数学算法,对16个样品的预测统计结果见表1。RaIlk表示阶数,表中列出的都是在该条件下表现“最优”的值。选用相关系数,一和变异系数CV作为定量模型的评价指标。相关系数越高,表明预测值与化学值越接近,变异系数则反映了预测值与化学值之间的离散程度。因此好的定量模型应具有高的R值和低的CV。表1中1代表一次扫描光谱,2代表四次扫描平均光谱;Rc为定标集相关系数,Rp为预测集预测结果与真值之间的相关系数。

采用四次扫描的平均光谱作为计算对象的相关系数都比一次扫描光谱高(或者相同),而且变异系数都有所降低(或相同)。对三种算法的比较可以看出,PLS算法优于PcR算法,PcR算法优于SRG算法。

3.3不同数据处理方法的预测结果对光栅型近红外光谱分析仪上的近红外光谱经过不同的数据处理,选取与3.2中相同的31个样品建立定标集,采用PLs算法,对16个样品的预测统计结果见表2。二阶导数和平滑加一阶导数的处理中,定标集一次扫描光谱的相关系数高于四次扫描的平均光谱,变异系数在定标集四个处理中一次扫描光谱都低于四次扫描的平均光谱。从对四种数据处理方法的比较可以看出,数据不做其他处理的定标和预测结果最好,平滑的处理效果与对照相近,对预测效果略有提高,而其余三种数据处理方法都使得预测结果准确度下降。

3.4不同近红外分析仪的预测结果的比较选用相同的样品,在不同近红外分析仪上进行光谱扫描,光谱都不经过其他数据处理,光栅型近红外光谱分析仪的近红外光谱为四次扫描的平均光谱,采用PLS算法,分别建立定标集,三台仪器对预测集样品的预测结果见表3,表中I,Ⅱ,Ⅲ分别表示光栅型近红外光谱分析仪和傅里叶变换近红外光谱分析仪1和傅里叶变换近红外光谱分析仪2。sEP表示预测标准差。统计结果显示,各台仪器的定标和预测结果的相关系数都大于95%,对预测集的预测标准差进行F检验,在a—o.05水平上,F(16,17)一(o.785)2/(o.986)2一o.63<2.29,说明仪器工和Ⅱ的预测结果之间差异不显着;仪器I和Ⅲ的预测结果之间F(16,17)一(o.785)2/(o.587)2=1.79<2.29,差异也不显着;仪器Ⅱ和Ⅲ之间预测结果差异显着,F(17,17)一(o.986)2/(O.587)2—2.82>2.29。

Table 4 EvaI岫ti蚰of the c习dibrati∞kIsed蚰diffe咖t spect蝴neters表3和表4的结果显示仪器Ⅲ预测标准差较低。仪器I和仪器Ⅱ采用了相同的定标样品集,定标集中都未包含高蛋白质含量(20.68%,22.03%,19.31%)的样品,对高蛋白含量样品的预测结果与化学值的偏差都在1%左右。仪器Ⅲ将高蛋白质含量的样品包含在定标集中,未知样品的预测结果与化学值之间的残差表现偏小;另外仪器Ⅲ在样品近红外光谱的采集上采用的是积分球技术,能够提高光谱的信噪比,这些都可能是仪器Ⅲ预测标准差较低的原因。

4讨论

近红外光谱技术在农产品、食品和饲料产品品质分析和质量监测上有着广泛的应用前景[7。9],作为一种快速简便的分析手段,受到广泛的关注。我国的近红外分析仪的研制和应用研究在近十年有了飞速的发展。现代近红外仪器一般通过运用数据处理方法或选择适当的算法来提高信噪比,一阶导数处理可以有效的消除光谱平移对测量的影响,二阶导数可消除光谱旋转对测量的影响,但各种导数处理一般都会导致噪声的增加[1?,因此在本实验中导数处理方法没有光谱平均和平滑的效果好,说明噪声较高的仪器不宜采用导数处理,而应采用其他的数学处理方法。PLs作为一种将光谱主成分和样品待测组分含量之间进行关联运算的数学算法,比SRG和PCR算法具有更丰富的待测组分的信息,是近红外定量分析中对于噪声较高的仪器预测效果较好的一种算法[1“。本实验的结果表明,运用适当的取样方法,通过数学算法和数据处理方式的选择,信噪比达不到105的光栅型近红外光谱分析仪也可以进行农产品的品质分析。