第43 卷第 5 期2024 年5 月
Vol.43 No.5
792~797
分析测试学报
FENXI CESHI XUEBAO(Journal of Instrumental Analysis)
快速构建方法
张晓兵1,徐志强1,钟永健1,朱宏福1,李峥1,
张军2,詹映2,彭云发2,刘建国1*高权健
(1.浙江中烟工业有限责任公司技术中心,浙江杭州310024;2.上海创和亿电子科技
发展有限公司,上海200082)
摘要:为解决光谱漂移问题,该研究设计了一种基于反向比例解析的近红外光谱定量模型方法。以烟叶近红外光谱和烟碱含量为研究对象,将数据划分为训练集和测试集。通过计算训练集光谱与测试集光谱的相关性并按照高低排序,选择前20%的光谱,运用约束规划的方法,计算测试集的拟合系数,得到测试集光谱的估计值。结果显示,使用反向比例解析法建立的模型的平均绝对误差为0.346 6,预测标准偏差为0.425 2,相关系数为0.793 2,优于PLS模型。反向光谱比例解析可以有效解决光谱漂移问题,实现烟草中烟碱含量的准确预测,为烟碱的有效测量提供参考。
关键词:反向比例;近红外光谱;相关性;拟合系数;加权
中图分类号:O657.3;TS41文献标识码:A文章编号:1004-4957(2024)05-0792-06
A Rapid Construction Method for Near Infrared Spectral Quantita⁃
tive Model Based on Reverse Proportional Analysis
ZHANG Xiao-bing1,XU Zhi-qiang1,ZHONG Yong-jian1,ZHU Hong-fu1,LI Zheng1,
ZHANG Jun2,ZHAN Ying2,PENG Yun-fa2,LIU Jian-guo1*
(1.Technology Center of China Tobacco Zhejiang Industrial Co.,Ltd.,Hangzhou 310024,China;
2.Shanghai Micro Vision Technology LTD.,Shanghai 200082,China)Abstract:To address the issue of spectral drift,this study proposes a quantitative model approach for near infrared spectroscopy based on reverse proportional analytical method. The research focuses on tobacco leaf near infrared spectra and nicotine content,with the data being divided into training and test sets. By calculating the correlation between the spectra in these sets and sorting them accord⁃ingly,select the top 20% of spectra for constraint programming calculation to estimate the spectra in the test set. The results demonstrate that the reverse proportional analytical method yields an average absolute error of 0.346 6,a predicted standard deviation of 0.425 2,and a correlation coefficient of 0.793 2,indicating its strong performance compared to PLS models. This highlights how the reverse spectral proportional analytical method effectively addresses spectral drift while accurately predicting nicotine content in tobacco,providing valuable insights for nicotine measurement.
Key words:inverse proportion;near infrared spectroscopy;correlation;fit coefficient;weighted
近红外光谱分析技术作为一种绿分析技术,融合了光谱技术、信息学、化学计量学和计算机技术[1],具有简单、高效、快速等优势,受到行业内的广泛关注。目前,近红外光谱检测技术在烟草行业被广泛应用,但多使用傅里叶变换近红外光谱仪,其检测精度高,但体积大,无法随意移动,因而仅限于实验室操作,无法应用于烟草种植、采烤、收购和醇化等一线场地[2]。近红外光谱分析技术的发展与近红外光谱仪的研究密切相关,尤其是在多场景应用需求的前提下,近红外光谱仪正逐步向小型化、固态化、模块化和快速实时等方向发展[3-5]。
目前,针对近红外的定量模型主要是针对全局或者局部的偏最小二乘(PLS)、主成分回归(PCR)等
doi:10.12452/j.fxcsxb.23122202
收稿日期:2023-12-22;修回日期:2024-02-15
基金项目:浙江中烟工业有限责任公司科技项目(ZJZY2021B001)
∗通讯作者:刘建国,工程师,研究方向:烟叶质量管理,E-mail:liujianguo@zjtobacco
第 5 期张晓兵等:基于反向比例解析的近红外光谱定量模型快速构建方法方法[6-10]。然而,烟草作为一种农产品[11-12],其光谱变化较为复杂,当预测化学成分与建模化学值发生变化时,已有的全局校正方式将不能满足模型的应用需求[13-16]。
为解决因化学成分变化导致的光谱漂移问题,本文以烟叶近红外光谱和烟煘含量为研究对象,构建了基于反向比例解析的近红外光谱定量模型,并探讨了方法的可行性;同时将该反向比例解析法与PLS 进行对比,并通过设定不同的拟合样本比例P 值,研究了其对预测精度的影响。1 实验部分
1.1 仪器与材料
Armor711在线近红外光谱仪(德国Carl Zeiss 公司),InGaAs 检测器,背景校正时间30 min ,扫描波
长910~2 200 nm ,扫描时间5 s ,波长准确性小于 0.5 nm ,波长重复性小于 0.05 nm ,波长点数为256。Antaris 傅里叶变换近红外光谱仪(美国赛默飞世尔科技公司),采用漫反射采样系统和样品杯旋转采样,InGaAs 检测器; 扫描范围:3 800~10 000 cm -1;分辨率:8 cm -1;扫描次数:64次。
选取2021~2023年云南曲靖“云87”品种的初烤原烟494个。1.2 测定方法
(1)光谱测定:在线生产工艺稳定后,使用在线近红外光谱仪采集烟叶光谱。每(20±2)片烟叶作为一个样本。扫描样本时,每5 s 采集一条光谱,共采集10次,10次光谱的平均值记为该样品的光谱。采集后的样本用自封袋密封并标记,光谱名称与自封袋标记相同。
(2)化学成分测定:采集光谱后的样品去梗撕碎,于60 ℃标准烘箱烘干1 h ,过60目筛。最后使用傅里叶近红外光谱仪检测10 g 样本的烟碱含量。
1.3 数据划分
以2022年采集的296个样本为训练集,2023年采集的198个样本为测试集。
1.4 数据预处理
绘制296个样本的原始光谱图,如图1所示,光谱
的离散性较高,需采用光谱导数消除背景漂移的影响。
基于烟草光谱处理的建模经验,Savitzky-Golay 方法优
于Karl-Norris 滤波,一阶导优于二阶导,且一阶导Savitzky-Golay 的窗口在7~15之间较合适,窗口过大会造成模型过拟合,窗口过小则会存在噪声。故最终采用Savitzky-Golay 一阶导卷积平滑进行光谱预处理,其中
导数设定为1,移动窗口设定为13,多项式阶数设
定为1。1.5 反向比例解析方法
由于烟草生产环境的复杂性,在线近红外光谱仪前
期建模采集的样本数据在运行一段时间之后,因样本的光谱与化学成分均会发生变动,进行直接预测时误差较大。而不断取样维护模型的工作量较大,不适用于工业生产。本文拟通过构建基于反向比例解析的近红外光谱定量模型进行解决。
对在线近红外光谱而言,随着时间的推移,仪器背景、使用条件等的变化将导致光谱与组分之间的关系发生变动,且这种变动具有随机性。而近红外光谱中,相似光谱的组分较为接近,且光谱存在线性叠加,而反向比例解析近红外光谱定量模型,可通过先筛选与目标光谱高度相似的光谱,再反向按照线性规律叠加出目标光谱。
具体步骤:
(1)从模型光谱库(S1)中计算出与外测光谱(Xtest )相关系数大于一定阈值C 0(0.95
)的样本X 0;(2)将样本X 0按照相关系数由大到小进行排序,并筛选出特定比例,定义筛选出来的光谱为X 1;(3)对筛选的样本X 1运用约束规划的方法与待测外测光谱(Xtest )进行拟合,拟合方法按照(1)~(2)
的公式约束:图1 训练集原始光谱图Fig.1 Original spectra of training set
793
第 43 卷
分析测试学报min f (P )=(P *X 1-Xtest)2(1)s .t .ìíîïï0<P i <0.3∑
i =1n P i =1(2) 其中,P 为拟合的比例,i 为筛选出来的光谱样品数量,P i 为第i 个样品拟合的比例。由于每个待测样本至少由3个等级模混配生产,故从实际生产条件考虑,设定拟合系数均小于0.3。
每隔长度13取待测外测光谱(Xtest )的拟合光谱与其实际光谱的一段值,计算其相关系数。若相关系数最低值>0.95,则光谱拟合成功;如果光谱拟合不成功,则该样本的预测值直接用模型光谱库(S 1)中相似度最高的光谱的实际值代替。
(4)计算待测光谱Xtest 化学值:
y test =y 1*P 1+y 2*P 2+……+y i *P i (3)
其中,P 1,P 2,....P i 为X 1拟合外测光谱的比例,y 1,y 2,...,y i 分别为对应样本X 1的真实化学值,i 为筛选的光谱样品数量。
1.6 模型评价
前期研究显示,模型外测性评价指标的重要性远大于内测性指标。模型更新维护后,跨年度选择
198个外测样本作为测试数据。采用平均绝对误差(MAE )、预测标准偏差(SEP )、相关系数(R )进行模型评价。计算公式如(4)、(5)、(6)所示。MAE
∑m =1n |y m -py m |n (4)SEP =
(5)R =(6) 其中,y m 为第m 个样本的真实值,y ˉm 为所有样本真实值的平均值,py m 为第m 个样本的预测值,n 为样品个数。
2 结果与讨论
2.1 数据预处理效果
剔除训练集与测试集光谱数据中前10个噪声较
大的波长点,采用Savitzky-Golay 一阶导卷积平滑预
处理。预处理后的训练集与测试集平均光谱如图2所
示,两者的光谱差异较大。
2.2 反向比例解析方法的超参数选择效果
2.2.1 不同相似样本比例对拟合目标光谱误差的影
响 研究了光谱库中的光谱与目标待测光谱相关系数
大于0.95的数据集中,不同比例P 对待测集光谱数据
拟合化学值精度的影响。首先,将建模集的数据按照8∶2的比例随机划分成训练集(xcal )与测试集(xval ),然后分别计算每条测试集光谱与训练集光谱的相关系
数,筛选出大于阈值0.95的所有样本并按照相关系
数大小进行排序。对筛选出来的光谱,每次按照5%的间隔筛选出最相似的P 比例样本与待测光谱进行拟合。重复上述过程100次,最终对MAE 、SEP 、R 分别求平均值,拟合结果见表1。从表可知,选择20%最相似的样本比例时拟合误差较小。这是由于烟
图2 建模光谱与测试光谱的对比Fig.2 Comparison between modeling spectra and test spectra
794
第 5 期张晓兵等:基于反向比例解析的近红外光谱定量模型快速构建方法草是一种非常复杂的农作物,相关系数大于0.95是光谱相似并非真正的样本相似,而是指样本对应的理化属性指标介于选定阈值与1之间。随着光谱相似的比例增多,样本相似的比例反而会减少,因此,最终选择20%最相似的样本比例。
2.2.2 反向比例解析的近红外目标光谱与拟合光谱结果 按照20%最相似的样本比例,以待测集(Xtest )第一条光谱(目标光谱)为例,图3左图为通过反向比例解析方法步骤(1)、(2)以及公式(1)、
(2)筛选出的30条与目标光谱最相似的光谱的拟合比例系数,其中第11、15、30条的拟合比例系数最高;右图为30条光谱经比例系数拟合后的光谱及目标光谱,除开始几个波长点有差异外,其他波长点几乎重合。图4左图为拟合光谱与目标光谱在每个波长点下的差值,右图为拟合光谱与目标光谱每个波长点的相关系数,各波长点下的相关系数均较高,最低值>0.95,表明光谱拟合成功。从光谱的重合度和每个波长点的相关系数可以看出,使用反向比例解析方法拟合后的光谱与目标光谱高度相似。
表 1 不同相似样本比例对拟合结果的影响
图3 光谱拟合系数与目标拟合光谱Fig.3 Spectral fitting coefficient and target fitting spectrum
图4 目标光谱与拟合光谱的差值Fig.4 Difference between the target spectrum and the fitting spectrum
795
第 43 卷
分析测试学报2.3 基于反向比例解析的近红外光谱定量模型快速构建方法与PLS 方法的对比
采用反向比例解析方法计算并加权得到待
测光谱的估计值;同时将训练集预处理后的光
谱运用PLS 法进行建模(主成分数10),并以所
建立的模型对待测集(Xtest )进行预测。在建模
过程中,波长变量选择是建模的关键步骤之
一,从图5可知,光谱值与组分之间相关系数
绝对值>0.58的只有4个波长点,而烟草成分
复杂,只选用4个波长点进行建模风险较大,
将导致模型不稳定,而相关系数绝对值>0.50
的波点也只有15个。本研究采集的近红外光谱
波长点数为237个,训练集样本量为296个,
当训练集光谱数量大于光谱变量数时,变量选
择不再是影响模型准确性的关键因素。因此,
综合考虑实际应用过程中模型的稳定性,最终
选择全波长进行建模。
反向比例解析法和PLS 方法的对比结果见
图6。结果显示,反向比例解析法更接近真实
值。两种方法对训练集和测试集的MAE 、SEP
与R 分别见表2和表3。从表可见,反向比例解
析法可使外部验证的绝对误差、标准偏差、相
关系数大幅提升,模型预测精度更准确。
对于预测集,较传统的PLS 全局建模,使
用反向光谱比例解析的方法可使MAE 从0.585 7降至0.346 6,降幅40.82%;SEP 从0.731 4降至0.425 2,降幅41.86%;相关系数为原相关系数的364%,升幅264%。可见反向光谱比例解析方法有效解决了光谱漂移时模型的精度问题。
3 结 论
本研究通过采用反向光谱比例解析方法消除光谱漂移的影响,所建方法使得MAE 较传统的PLS 全局建模降低40.82%、SEP 降低41.86%、相关系数升高264%,其中光谱库筛选待测样本大于指定阈值相似样本20%的结果较优,有效解决了光谱漂移时模型的精度问题。
参考文献:
[1]Chu X L ,Chen P ,Li J Y ,Liu D ,Xu Y P. J. Instrum. Anal. (褚小立,陈瀑,李敬岩,刘丹,许育鹏. 分析测试学
报),2020,39(10): 1181-1188.表2 两种方法对训练集的预测结果对比
PLS 0.517 10.668 70.558 4
表3
两种方法对测试集的预测结果对比PLS 0.585 7
0.731 40.217 8
图5 不同波长点下光谱与烟碱含量的相关系数Fig.5 Correlation coefficient between spectra and nicotine content at different wavelength points
图6 反向比例解析法与PLS 预测折线图Fig.6 Prediction line chart of reverse proportional analysis method and PLS 796
发布评论