基于数据增强策略和卷积神经网络的近红外光谱分析研究

近红外光谱技术结合化学计量学算法已广泛应用于食品和药品等领域的定性和定量分析.然而,传统化学计量学方法,特别是线性分类方法,在解决多分类问题时的效果不佳.卷积神经网络(CNN)能够提取数据中的深层次特征,适合处理非线性关系,但其建模性能依赖样本量的大小和多样性,而近红外光谱样本数据的采集和预处理过程通常耗时且费力,获取样本成本较高.本研究提出了一种基于数据增强策略和CNN的近红外光谱定性分析方法.此数据增强策略分为两步:(1)分别采用Bootstrap重采样和生成对抗网络(GAN)方法对3个近红外光谱数据集(药片、咖啡和葡萄)进行样本扩增;(2)将原始样本(Y)分别与Bootstrap扩增样本...

Full description

Saved in:
Bibliographic Details
Published in分析化学 Vol. 52; no. 9; pp. 1266 - 1276
Main Authors 郑运, 杨思雨, 王涛, 邓焯文, 兰维杰, 云永欢, 潘磊庆
Format Journal Article
LanguageChinese
Published 海南大学食品科学与工程学院,海口 570228%南京农业大学食品科技学院,南京 430000 2024
Subjects
Online AccessGet full text

Cover

Loading…
More Information
Summary:近红外光谱技术结合化学计量学算法已广泛应用于食品和药品等领域的定性和定量分析.然而,传统化学计量学方法,特别是线性分类方法,在解决多分类问题时的效果不佳.卷积神经网络(CNN)能够提取数据中的深层次特征,适合处理非线性关系,但其建模性能依赖样本量的大小和多样性,而近红外光谱样本数据的采集和预处理过程通常耗时且费力,获取样本成本较高.本研究提出了一种基于数据增强策略和CNN的近红外光谱定性分析方法.此数据增强策略分为两步:(1)分别采用Bootstrap重采样和生成对抗网络(GAN)方法对3个近红外光谱数据集(药片、咖啡和葡萄)进行样本扩增;(2)将原始样本(Y)分别与Bootstrap扩增样本(B)和GAN扩增样本(G)进行组合,得到3种增强数据集(Y-B、Y-G和Y-B-G).在此基础上,设计了适用于此数据集的CNN模型结构,由2个一维卷积层、1个最大池化层和1个全连接层组成.与偏最小二乘判别分析(PLS-DA)、支持向量机(SVM)和BP神经网络(BP)的最优模型相比,基于Y-B数据集的CNN模型对药片(2类)分析的平均准确率分别提升了3.998%、9.364%和4.689%;基于Y-B-G数据集的CNN模型对咖啡(7类)分析的平均准确率分别提升了6.001%、2.004%和7.523%;基于Y-B数据集的CNN模型对葡萄(20类)分析的平均准确率分别提升了33.408%、51.994%和34.378%.此结果表明,基于数据增强策略和CNN在不同数据集和分类类别中建立的模型均表现出更好的分类准确率和泛化性能.
ISSN:0253-3820
DOI:10.19756/j.issn.0253-3820.241155