ED-Stacking:A Construction Method of Few-shot Prediction Model for Beef Microbial Growth Based on Ensemble Learning
-
摘要: 当前技术条件下,微生物检测操作复杂、耗时长,导致了检测结果滞后且其样本数量有限的问题。本文提出了一种基于时间序列分解和集成学习的小样本牛肉微生物生长预测模型ED-Stacking构建方法,以便提前预警食品中的微生物风险。首先应用经验模态分解(EMD)、离散傅里叶变换(DFT)和加法模型构建时间序列分解方法(EMD-DFT),提取微生物生长时间序列中的趋势、周期和残差特征,为后续预测模型提供训练数据;然后利用这些特征数据对单层线性神经网络(SLN)、极端梯度提升树(XGBoost)和梯度提升回归树(GBRT)进行训练;最后,采用集成学习中的堆叠(Stacking)方法对训练好的三个模型进行融合,形成预测效果更优的微生物生长预测模型ED-Stacking。对比实验结果显示ED-Stacking在MAE和MSE两个指标上分别达到了0.229和0.147,预测误差低于SLN、XGBoost、GBRT、GRU和Transformer五个基线模型,即预测准确性更高。基于该模型对食品品质进行分类,分类的加权平均精准率Weighted-Precision达到98.80%。进而,还构建了一个食品微生物生长预测可视分析系统FMPvis,可以展示预测结果和食品品质分类结果,帮助用户分析各环境因子随时间的变化趋势及其对预测结果的影响程度,从而实现风险分析和预警。本文方法为食品微生物风险预警提供了一种新的思路和方法。Abstract: Under the current technological conditions, microbial detection was complicated and time-consuming, which leaded to the problem of lagging detecting results and limited sample size. In this paper proposed a construction method of few-shot predictive model for microbial growth in beef, called ED-Stacking, which was based on time series decomposition and ensemble learning, for early warning of microbial risks in food. First, empirical mode decomposition (EMD), discrete Fourier transform (DFT) and additive modeling were applied to construct a time series decomposition method EMD-DFT, which was used to extract the trend, period, and residual features in the microbial growth time series, and to provide training data for the subsequent prediction model. Second, these feature data were then utilized to train a single-layer linear neural network (SLN), extreme gradient boosting (XGBoost) and gradient boosting regression tree (GBRT). Finally, the stacking method in ensemble learning was used to fuse the three trained models to form ED-Stacking, a microbial growth prediction model with better performance in prediction. Results showed that ED-Stacking achieved 0.229 and 0.147 in MAE and MSE metrics, respectively, with lower prediction errors than the five baseline models of SLN, XGBoost, GBRT, GRU, and Transformer. Based on this model, the food quality classification was performed and the weighted precision of the classification, Weighted-Precision, reached 98.80%. Furthermore, the study also presented FMPvis, a visual analysis system for the prediction of microbial growth in food, which could display the prediction results and the food quality classification results, and helped users to analyze the trend of each environmental factor over time and its influence on the prediction results, so as to facilitate risk analysis and early warning. This approach contributes a new idea for early warning of microbial risk in food.
-
微生物污染会导致食品品质劣变,对人体健康构成重大威胁,是影响食品安全的重要因素之一[1]。传统的食品微生物检测方法虽然精确,但其人工操作复杂、耗时长,导致检测结果滞后、抽检频次受限,难以满足对食品安全风险快速识别和预警的要求[2]。通常食品中微生物的生长会受其环境因素影响(如温度、湿度等),而这些环境因素是可以通过传感器来快速获取的,为此通过食品环境因素监测数据来预测食品微生物生长状况的方法应运而生。近年来,食品微生物生长预测模型主要包括微生物生长动力学模型和时间序列预测模型两类。
微生物生长动力学模型是通过对微生物生长过程进行建模来描述其生长规律的数学模型,用于描述微生物生长、代谢及其受环境影响的重要理论工具[3],旨在量化微生物在不同条件下的生长规律。国内外研究者们已成功开发出一系列经典的微生物动力学模型,如Monod模型[4]、Michaelis-Menten模型[5]、Gompertz模型[6]、Baranyi&Roberts模型[7]、Arrhenius方程[8]和Logistic模型[9]等,它们有效地揭示了微生物生长与其所处环境中物质浓度之间的动态关系。然而,微生物生长动力学模型通常基于理想化的数学假设,如连续培养模型中的恒定条件假设等,没有考虑多种微生物和多种环境因素的综合影响,导致模型预测结果与实际情况有一定出入。
时间序列预测模型则基于历史数据中的模式和趋势,通过数学模型来推断未来某一段时间内的数值变化。近年来,机器学习技术,如SLN、GBRT、XGBoost、GRU和Transformer等,被广泛应用于解决时间序列预测问题,并在电力预测[10]、能耗预测[11]、气象预测[12]等多个领域取得了良好效果。同时,时间序列预测技术也开始应用于食品安全领域,例如,Marvin等[13]利用荷兰奶牛饲料中的化学危害数据、气候数据和农业用地使用情况等数据,训练构建了一个贝叶斯网络用于预测奶牛饲料中的化学危害风险水平,并采用熵函数和参数灵敏度分析两种方法对贝叶斯网络进行了优化,提高了食品化学污染水平的预测准确率。Liu等[14]利用贝叶斯网络来识别荷兰乳制品中的化学危害物,以欧洲乳品供应链为应用案例,验证了模型的有效性。这些研究以食品为研究对象,旨在预测其化学污染水平。为提高时间序列预测模型的性能,通常时间序列分解被用于提取特征,它是时间序列预测的一个重要前置步骤,常用方法有经验模态分解(Empirical Mode Decomposition,EMD)[15]和离散傅里叶变换(Discrete Fourier Transform,DFT)[16],在本研究中用于提取环境因子和微生物含量随时间变化的特征。总之,时间序列预测技术已开始用于解决食品安全领域的预测预警问题,然而,针对食品微生物预测的研究还较少,特别是面对食品微生物生长数据集小样本和高维性的挑战,亟需开发高效、准确的预测方法,以实现食品微生物风险的快速识别和预警。
小样本学习(Few-Shot Learning)能够让模型在仅有少量样本的情况下,依然能够获得良好的泛化能力。常用的小样本学习方法包括迁移学习(Transfer Learning)[17]、数据增强(Data Augmentation)[18]和集成学习方法(Ensemble Learning)[19]。迁移学习的原理是从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果,由于微生物生长数据集并没有适用于迁移的标注数据,所以迁移学习并不适用于解决微生物生长数据集的小样本问题。数据增强常用于图像数据,对于小样本食品微生物生长数据集这类时间序列数据,添加噪声等常用的数据增强方法反而会干扰预测效果。集成学习方法通过综合多个模型的预测结果来进行预测,可以有效避免小样本数据集和单一模型导致的过拟合问题。
本研究以牛肉微生物生长(Beef Microbial Growth,BMG)数据集为研究对象,基于时间序列分解技术、时间序列预测技术和集成学习方法,提出了一种牛肉微生物生长预测模型ED-Stacking,能够根据对牛肉所处环境因子的历史监测结果来预测牛肉中微生物含量,为牛肉中微生物风险的快速识别和预警提供新思路。
1. 材料与方法
1.1 材料与仪器
本研究采用的BMG数据集引自Dedy Wijaya公开数据集[20]。Wijaya等[21]利用11个金属氧化物半导体(MOS)气体传感器进行了牛肉质量监测实验,通过每1 min记录一次反映牛肉贮存环境周围气体含量的传感器电阻值,每1 h(60 min)记录一次牛肉中总活菌计数TVC的值,来监测牛肉微生物生长情况。实验时,将被测牛肉放置在稳定温度(29 ℃)下的样品室中共2220 min,使用气体传感器探测牛肉贮存环境周围各种气体含量,并且将每分钟获取的传感器电阻值自动发送到数据服务器;使用分光光度计(spectrophotometer)进行1000倍稀释的光密度测量,每小时检测一次牛肉样品中的总活菌计数。本研究设定牛肉微生物时间序列数据以分钟(min)为时间间隔,由于微生物总活菌计数是每小时检测一次,故这1 h内每分钟的总活菌计数TVC值都使用这1 h的检测结果。气体传感器阵列采集的电阻值监测数据与检测所得的总活菌计数数据形成了BMG数据集,具体包含以下属性列:时刻(min)、总活菌计数TVC(lg CFU/g(mL))、品质标签Label、11个气体传感器的电阻值属性MQ2、MQ3、MQ4、MQ5、MQ6、MQ8、MQ9、MQ135、MQ136、MQ137、MQ138。MQ_表示某气体传感器的电阻值,反映了环境中相关气体的含量。MOS气体传感器的工作原理如下:对于还原性气体(如一氧化碳、氢气等),当气体浓度增加时,传感器的表面会发生还原反应,导致其电阻值降低;而对于氧化性气体(如臭氧、二氧化氮等),气体浓度的增加会引起传感器表面的氧化反应,使得电阻值升高[22]。其中,11个气体传感器属性为食品微生物生长环境因子,TVC为总活菌计数监测结果。BMG数据集中各属性名称及其含义如表1所示。
表 1 牛肉微生物生长数据集中各属性及其含义Table 1. Attributes and their meanings in the beef microbial growth dataset序号 属性名称 含义 1 TVC 总活菌计数 2 Label 表示食品品质的离散标签,取值分别有:“优秀”、
“良好”、“可接受”和“变质”3 MQ2 液化石油气、正丁烷、丙烷、甲烷、酒精、氢气、烟雾 4 MQ3 酒精、苯、甲烷(CH4)、己烷、液化石油气、一氧化碳 5 MQ4 甲烷(CH4),天然气 6 MQ5 液化石油气、天然气、城市燃气 7 MQ6 液化石油气、异丁烷、丙烷 8 MQ8 氢气(H2) 9 MQ9 甲烷、丙烷、一氧化碳 10 MQ135 氨(NH3)、氮氧化物、酒精、苯、烟雾、二氧化碳(CO2) 11 MQ136 硫化氢(H2S) 12 MQ137 氨(NH3) 13 MQ138 甲苯、丙酮、乙醇和甲醛 其中,总活菌计数TVC与牛肉品质标签Label的对应关系如表2所示。
表 2 总活菌计数TVC与牛肉品质标签Label的对应关系Table 2. Correspondence between TVC and beef quality LabelTVC取值 品质标签Label [0,3) 优秀 [3,4) 良好 [4,5) 可接受 [5,+∞) 变质 本研究使用的计算机配置如下:处理器:AMD Ryzen 5 5600H with Radeon Graphics 3.30 GHz;RAM:32.0 GB(3200 MHz);操作系统:Windows 10;GPU:NVIDIA GeForce RTX 3050;软件运行环境:Python 3.8,TensorFlow 2.6.0。
1.2 实验方法
牛肉微生物生长预测模型ED-Stacking的构建流程如图1所示。首先,对BMG数据集进行数据处理与分析以进行数据特征和模型选择。具体地,通过绘制各个环境因子随时间变化的折线图找出异常值,并使用异常值前后两个正常值的均值进行替换;利用斯皮尔曼(Spearman)相关系数衡量各个环境因子与总活菌计数TVC之间的相关性,选择强相关的环境因子作为特征环境因子,并构建牛肉微生物生长特征数据集;通过计算偏度和峰度确定各个环境因子的分布特征,选择适用于该数据的模型进行对比实验,根据对比实验的结果选择单层线性神经网络、极端梯度提升树和梯度提升回归树作为集成学习的学习器。其次,构建时间序列分解方法EMD-DFT以提取BMG数据集中的趋势项、周期项和残差项,以得到微生物生长序列的趋势和周期特征,并构建牛肉微生物生长特征分解矩阵作为后续模型的训练数据。最后,采用集成学习的堆叠方法(Stacking),选择SLN和XGBoost作为基学习器,GBRT作为元学习器,将牛肉微生物生长特征分解矩阵作为SLN和XGBoost的训练输入,SLN和XGBoost的输出作为GBRT的训练输入,GBRT的输出即为牛肉中总活菌计数TVC的预测结果。
1.3 数据处理
1.3.1 数据处理与分析方法
1.3.1.1 异常值处理
在牛肉微生物生长数据的收集过程中,有很多原因可能会导致异常值,如:传感器故障或老化、供电不稳定、信号干扰等。为提升所建立的食品微生物生长预测模型的准确性,采用数据可视化方法直观地展示数据变化情况,从而找到明显偏离其他数据点的异常值。
1.3.1.2 相关性分析与特征选择
采用斯皮尔曼(Spearman)相关系数来对牛肉微生物生长数据进行相关性分析。Spearman相关系数是一种非参数统计方法,用于衡量两个有序变量之间相关关系。Spearman相关系数不要求变量呈现线性关系,也不要求数据服从高斯分布,而是关注于变量之间的等级关系,因此对于任何类型的变量都适用。
设两个属性的值分别为x1,x2,⋯,xn和y1,y2,⋯,yn,n为时刻的个数,将这些属性的值分别按大小排序,并用它们在排序后的序列中的位置(排名)来代替原始值。设xi的排名为rxi,yi的排名为ryi,则等级差为di=rxi−ryi,则Spearman相关系数的计算如下式所示。
ρ=1−6∑mi=1d2im(m2−1) 式中,m为属性的个数,Spearman相关系数越靠近1或−1,表示二者之间的关系成正相关或负相关,相关系数为0时,则表示两个变量之间不存在线性相关关系。数字6表示一个特定的参数[23]。
为了减少特征数量,降低模型复杂度和避免过拟合,通过计算影响微生物生长的各个环境因子与总活菌计数TVC之间的相关性,认为相关性系数过小的属性为弱相关,即该环境因子对于微生物生长的影响较小,反之则为强相关,即该环境因子对于微生物生长的影响较大。筛选出与总活菌计数TVC相关性更高的环境因子,从而达到特征选择的目的。
1.3.1.3 分布特征分析与模型选择
分布特征分析常用于确定数据集是否符合特定的概率分布。在集成学习中,数据分布特征分析对于基学习器和元学习器的选择至关重要,在时间序列预测中,有一些模型要求在假设高斯分布的情况下进行推导和参数估计,因此如果数据偏离高斯分布,可能会导致一些统计推断上的问题,从而影响模型的预测精度。这些模型包括:线性回归模型、MA模型、ARMA模型、ARIMA模型[24]、GARCH模型等。也有一些时间序列预测模型不要求数据满足严格的高斯分布,而是通过不同的方法来捕捉数据中的模式和规律,例如:XGBoost模型、GBRT模型、逻辑回归模型、神经网络模型[25]、LSTM模型[26]、SVM模型[27]等。
通常可以用偏度和峰度来表达数据的分布特征,第j个属性的偏度Kj与峰度Sj的计算公式如下式所示。
Kj=1m∑mi=1[(xij−μN′jσN′j)4] Sj=1m∑mi=1[(xij−μN′jσN′j)3] 式中,xij(i=1,2,⋯,m;j=1,2,⋯,k)为第i个时刻,第j个特征属性的取值,m为该时间序列的时刻总数,k为该时间序列数据集的属性总数,μN′j表示第j个特征属性向量的均值,σN′j表示第j个特征属性向量的标准差,σN′j计算公式如下式所示。
σN′j=√∑mi=1(xij−μN′j)2m 通过计算BMG数据集中每一个特征属性的偏度和峰度,可以确定数据中各项特征属性的分布特征和分布类型,进而方便进行模型的选择和构建。
1.3.2 时间序列分解方法EMD-DFT
EMD-DFT的主要原理是利用EMD算法分离出趋势项,利用DFT算法分离出周期项,然后利用加法模型分离出残差项,具体步骤如下。
步骤1:找到牛肉微生物生长特征数据集中每个特征环境因子的所有局部极值点[28],包括极大值点和极小值点,在每个相邻的极值点之间,通过插值得到一条连接它们的均值曲线。步骤2:对原始信号与均值曲线之间的差作为新的原始信号[29],重复以上步骤,直到满足本征模态函数(Intrinsic Mode Function,IMF)的定义条件为止:条件1:在整个数据长度内,IMF的极值点的个数和拐点的个数要么相等,要么相差1;条件2:在任意一个点上,上下极值交替出现,并且上下“包络线”(通过局部极值点连接而成)的均值为零,且具有相同的极值点。步骤3:将分解得到的IMF中的所有低频成分相加,得到每一个特征环境因子的趋势项,然后将所有特征环境因子的趋势项加权相加进行重构,权重为各个特征环境因子与总活菌计数TVC的Spearman相关系数,重构为牛肉微生物生长特征数据集的趋势项。步骤4:使用离散傅里叶变换将时域的牛肉微生物生长特征数据集中的每一个环境因子转换到频域[30],并通过频谱分析[31],分析幅度和相位,可以了解到每一个特征环境因子数据中的周期性特征。步骤5:将所有特征环境因子分解重构得到的周期项加权相加,权重为各个特征环境因子与总活菌计数TVC的Spearman相关系数,重构为牛肉微生物生长特征数据集的周期项。步骤6:应用加法模型分离出牛肉微生物生长特征数据集中的每一个特征环境因子的残差项,并将所有特征环境因子属性分离出来的残差项加权相加,权重为各个特征与总活菌计数TVC的Spearman相关系数,重构为牛肉微生物生长特征数据集的残差项。
步骤3、步骤5和步骤6中的加权相加操作是为了对训练数据进行降维,以达到快速训练的目的。将利用EMD-DFT分解重构后提取出的趋势项、周期项和残差项与总活菌计数列合并为牛肉微生物生长特征分解矩阵,用作后续基学习器的训练输入。
1.3.3 基于集成学习的预测模型ED-Stacking构建与实现方法
集成学习模型是将多个基础模型通过不同的集成思想进行组合,获得性能更优、泛化能力更强的模型,主流方法有提升法(Boosting)、装袋法(Bagging)和堆叠法(Stacking)。Stacking能够利用多个不同类型的模型,通过元学习器来综合这些模型的预测结果,能够同时降低偏差和方差。相较之下,Bagging主要降低方差,而Boosting主要降低偏差。另外,由于Stacking能够使用不同类型的模型,可以避免单一模型类型的局限性,充分利用不同模型的优点。因此,本研究采用Stacking方法对模型进行集成。
本研究使用平均绝对误差(MAE)和均方误差(MSE)对比了ARIMA、GBRT、LightGBM、SVM、XGBoost、SLN、LSTM、GRU和Transformer九个模型在BMG数据集上的预测效果,选择九个模型中在BMG数据集上的预测效果最好的三个模型进行集成,形成牛肉微生物生长预测模型ED-Stacking。
首先,利用5折交叉验证法将牛肉微生物生长特征分解矩阵划分为训练集和验证集,将牛肉微生物生长特征数据集按照8:2的比例划分为元训练集与元验证集,再利用5折交叉验证将元训练集再次划分为5份,其中1份作为基验证集,剩余4份作为基训练集,用于对基学习器进行训练。其次,将基学习器的预测结果组合成一个2220×2维的基学习器预测结果矩阵,2220代表牛肉微生物生长特征数据集的样本数,2代表基学习器的个数。最后,将基学习器预测结果矩阵作为元学习器的输入,训练元学习器的参数,并做出最终的预测。
牛肉微生物生长预测模型ED-Stacking的实现可以使用Python工具及其扩展包,包括mlxtend、scikit-learn、statsmodels、EMD-signal、numpy、pandas、matplotlib等。
1.3.4 预测模型ED-Stacking的评价方法
将ED-Stacking与SLN、XGBoost、GBRT、GRU和Transformer模型在相同的实验环境下,应用于牛肉微生物生长数据,进行对比实验,使用MAE和MSE评估ED-Stacking的预测效果。MAE和MSE计算方法分别如下式所示,MAE与MSE的值越低,表示牛肉中总活菌计数的预测值与真实值之间的误差越小,模型的预测效果越好。
MAE=1m∑mi=1|Yi−Yitrue| MSE=1m∑mi=1(Yi−Yitrue)2 式中,Yi与Yitrue分别表示牛肉中总活菌计数的预测值和真实值,m表示样本数。
应用牛肉微生物生长预测模型ED-Stacking预测出牛肉中的总活菌计数,对照表2可以对牛肉品质进行分类。利用加权平均精准率(Weighted-Precision)来对分类效果进行评估,如下式所示,Weighted-Precision的值越高,则说明分类效果越准确。
Pu=LuPreu Weighted-Precision=∑umaxu=1Tum×Pu 式中,Pu表示第u类别的精准率,Weighted-Precision表示样本总体的精准率,Tu表示真实品质标签为u的样本数量,Lu表示预测的品质标签为u且真实品质也为u的样本数量,umax表示品质标签的个数,m表示样本数,Preu表示预测品质为u的样本数量。
1.3.5 食品微生物生长预测可视分析系统构建方法
基于食品微生物生长预测模型对于食品微生物生长历史数据的分析,利用echarts.js和D3.js可视化图表工具,构建了一个食品微生物生长预测可视分析系统FMPvis(Food Microbial Prediction Visual System),主要利用折线图展示环境因子随时间变化趋势和TVC预测结果与真实值比较情况;利用柱状图、玫瑰图和环形饼图展示食品品质分类结果与真实品质的对比情况;利用散点图展示未来20 min内微生物含量变化趋势;利用SHAP方法(SHapley Additive exPlanations)与排列重要性PI(Permutation Importance)展示各个属性对于模型预测结果的影响程度。SHAP方法通过计算每个特征对模型预测结果的贡献来解释模型是如何进行决策的;PI方法通过随机打乱特定特征的值,然后观察模型性能的下降程度。特征越重要,打乱后对模型性能的影响越大;反之,影响越小。
2. 结果与分析
2.1 BMG数据集的分析与处理
2.1.1 异常值处理
BMG数据集中的11个环境因子和总活菌计数TVC随时间变化的情况如图2所示,将与平均值的偏差大于两倍标准差的值判定为异常值,找到异常数据点并使用其前后两个正常数据点的均值修正异常值。在1892 min时,MQ6波动较大,存在异常值,取1891 min与1893 min时MQ6值的平均值作为1892 min时MQ6的取值。
结合图2和表1以及MOS传感器的工作原理可以分析出各个气体传感器所监测的相关气体含量随时间变化的趋势,从第0 min开始,牛肉中的总活菌计数TVC呈缓慢增长趋势。传感器MQ137、MQ5和MQ6的电阻值呈波动上升趋势并逐渐稳定,而传感器MQ135、MQ136、MQ138、MQ2、MQ3、MQ4、MQ8和MQ9的电阻值呈间歇性波动下降趋势,最终稳定。
2.1.2 相关性分析与特征选择
Spearman相关系数应用于BMG数据集的计算过程为:环境因子Xi(该环境因子在第i个时刻的取值),Yi(总活菌计数TVC在第i个时刻的取值),在n个时刻的记录中对Xi进行排序。统计n个时刻的记录中总活菌计数TVC的取值,根据总活菌计数TVC的取值大小对Yi进行排序,将Yi排序后的结果记录下来作为该时刻该环境因子的当前排名,然后计算Xi和Yi的差异;最后,通过计算得到影响微生物生长的各个环境因子与总活菌计数TVC之间的Spearman相关系数。计算结果按相关系数从高到低排序如表3所示。
表 3 各环境因子与总活菌计数之间的Spearman相关系数Table 3. Spearman correlation coefficient between environmental factors and TVC环境因子 MQ3 MQ137 MQ138 MQ8 MQ135 MQ5 MQ9 MQ4 MQ6 MQ2 MQ136 相关系数 0.595 0.246 0.163 0.109 0.082 0.032 0.009 0.004 0.004 0.001 0.001 本研究将MQ2和MQ136与预测目标变量TVC认定为弱相关,将其去除后,剩余9个特征属性,筛选出的特征属性为MQ3,MQ4,MQ5,MQ6,MQ8,MQ9,MQ135,MQ137,MQ138。将去除与TVC呈弱相关的环境因子后的BMG数据集作为牛肉微生物生长特征数据集。
2.1.3 分布特征分析与模型选择
牛肉微生物生长数据中11个环境因子(属性)的偏度和峰度由1.3.1.3节中的公式计算得出,结果如表4所示。偏度值小于0为右偏态,偏度值大于0为左偏态;峰度值为3表示高斯分布,否则为非高斯分布。
表 4 各环境因子的偏度和峰度Table 4. Skewness and kurtosis of each environmental factor变量 MQ2 MQ3 MQ4 MQ5 MQ6 MQ8 MQ9 MQ135 MQ136 MQ137 MQ138 偏度 4.075 0.957 1.525 −0.132 −0.221 −0.199 0.76 1.606 3.652 −1.607 2.423 峰度 19.505 1.73 1.29 −0.878 19.028 −0.221 1.481 3.197 14.799 1.21 7.35 由表4结果可知,所有属性的峰度值均不等于3,MQ5、MQ6、MQ8和MQ137的分布呈右偏态,其余变量的分布呈左偏态,可以得出结论,BMG数据集中的各个属性均不符合高斯分布,呈非高斯分布。所以BMG数据集适用于不要求严格高斯分布的模型,选择ARIMA、GBRT、LightGBM、SVM、XGBoost、SLN、LSTM、GRU和Transformer九个模型作为备选的学习器。
九个模型在BMG数据集上的预测效果对比结果如表5所示,指标值最低的三组数据用粗体表示。
表 5 九种模型的对比实验结果Table 5. Comparative experimental results of nine models方法 ARIMA GBRT LightGBM SVM XGBoost SLN LSTM GRU Transformer MAE 0.582 0.327 0.601 0.613 0.587 0.562 0.621 0.562 0.571 MSE 0.392 0.279 0.464 0.462 0.348 0.390 0.452 0.491 0.456 综合考虑MAE和MSE指标,选择预测效果较好、误差较小且不要求数据严格符合高斯分布的SLN、XGBoost和GBRT作为Stacking方法的学习器。另外,考虑到基学习器是为相对高维数据设计的,而元学习器是为低维数据设计的,因此,将结构较复杂的SLN模型和XGBoost模型作为基学习器,而结构相对简单的GBRT模型作为元学习器[32]。
2.2 BMG数据集中的时间序列分解
BMG数据集经过相关性分析与特征选择后,得到特征环境因子,并以此构建了牛肉微生物生长特征数据集,使用EMD-DFT方法对每个特征环境因子进行时间序列分解,得到每个特征环境因子的趋势项、周期项和残差项。利用每个特征环境因子和总活菌计数TVC的Spearman相关系数作为权重,分别对趋势项、周期项和残差项进行加权重构,得到牛肉微生物生长特征环境因子的整体趋势项、周期项和残差项。
2.2.1 基于EMD的趋势项分解
利用EMD算法将牛肉微生物生长特征数据集中的每一个特征环境因子分解为多个IMF。在EMD中,每个IMF都具有不同的频率和振幅,其中低频IMF通常对应于趋势项,具有相对较大的振幅变化和较平滑的曲线特征,变化缓慢且波动幅度较大。牛肉微生物生长特征数据集的经验模态分解结果(MQ3示例)如图3所示,IMF1~IMF6的突变性较强,频率高且波形复杂,IMF7~IMF9信号趋于平缓,变化幅度较小,可以体现出信号的大体趋势。
本文选择本征模函数IMF中的低频分量(IMF7、IMF8和IMF9)相加进行重构,即可得到该属性的趋势项。以MQ3为示例,将低频分量相加重构后得到的趋势项如图4所示。
将所有特征环境因子分解重构得到的趋势项加权相加,可以得到整个牛肉微生物生长特征数据集的趋势特征,权重为表3展示的各特征环境因子与总活菌计数之间的Spearman相关系数。重构后的整个牛肉微生物生长特征数据集的趋势项如图5A所示。
2.2.2 基于DFT的周期项分解
利用DFT算法将牛肉微生物生长特征数据集中的每一个特征环境因子从时域数据转换到频域数据,分解为多个频率分量。幅度最大的频率分量代表着数据中最显著的周期性信号,本文选择了分解后幅度最大的3个频率分量进行逆离散傅里叶变换(IDFT),从而重构周期性信号。重构后的周期性信号(MQ3示例)如图6所示。
将所有环境因子变换重构得到的周期项加权相加,可以得到整个牛肉微生物生长特征数据集的周期特征,权重为表3展示的各特征环境因子与总活菌计数之间的Spearman相关系数。重构后的整个牛肉微生物生长特征数据集的周期项如图5B所示。
2.2.3 基于加法模型的残差项分解
利用加法模型可以分离出各个环境因子的残差项,将其加权相加重构为整个牛肉微生物生长特征数据集的残差特征,权重为表3展示的各环境因子与总活菌计数之间的Spearman相关系数。重构后的整个牛肉微生物生长特征数据集的残差项如图5C所示。
图5显示了基于EMD-DFT的时间序列分解方法应用在牛肉微生物生长特征数据集上的结果,从上至下依次表示为重构后的趋势项、重构后的周期项和重构后的残差项。
2.3 ED-Stacking模型的构建与评价
2.3.1 模型训练数据的准备
将2.2节中基于EMD-DFT时间序列分解方法得到的趋势项、周期项和残差项与总活菌计数合并为牛肉微生物生长特征分解矩阵Y,作为后续基学习器的训练输入。
Y=(r1s1e1y1r2s2e2y2⋯⋯⋯⋯risieiyi⋯⋯⋯⋯r2220s2220e2220y2220)2220×4 式中,ri表示牛肉微生物生长特征数据集在第i时刻的趋势项值,si表示牛肉微生物生长特征数据集在第i时刻的周期项值,ei表示牛肉微生物生长特征数据集在第i时刻的残差项值,yi表示牛肉微生物生长数据在第i时刻的总活菌计数TVC的取值,i=1,……,2220。
2.3.2 ED-Stacking模型构建与训练
牛肉微生物生长预测模型ED-Stacking的训练过程具体包含下列步骤。
步骤1:训练基学习器SLN和XGBoost;对于每一个基学习器,无重复地选择基数据集中的1份数据作为基验证集,剩余4份作为基训练集,循环训练并预测5次,可以得到5组预测结果,将预测的结果进行按照列的方式合并,可以获得基学习器SLN和XGBoost对应的预测值向量,分别记为VSLN和VXGBoost,二者均为一个包含1776(2220×0.8,元训练集与元验证集的比例为8:2)个预测值组成的列向量。
VSLN=(h1h2⋯h1776)VXGBoost=(l1l2⋯l1776) 矩阵中,hi表示VSLN中第i个预测值,li表示VXGBoost中第i个预测值。
对于基学习器SLN,训练过程如下:a.初始化参数:初始化权重向量W和偏置项b。b.前向传播:对于基训练集中的每一个样本M′i(i=1,2,⋯,1421),计算其预测值Yi,如下式所示,1421代表基训练集的样本数。
Yi=Xi×W+b=(xi1xi2⋯xi9)(w1w2⋯w9)+b=xi1w1+xi2w2+⋯+xi9w9+b 矩阵中,xij表示第i个时刻,第j个特征的值,wj表示第j个特征的权重,9为经过特征筛选后保留的特征属性个数。
c.计算损失函数:使用均方误差来计算预测值Yi与真实值Yitrue之间的差异,损失函数定义如下式所示。
Loss=11421∑1421i=1(Yi−Yitrue)2 d.反向传播:根据链式法则计算损失函数对于权重向量W和偏置项b的梯度,如下式所示。
∂Loss∂Yi=21421∑1421i=1(Yi−Yitrue)∂Loss∂W=11421∑1421i=1M′iT×∂Loss∂Yi∂Loss∂b=11421∑1421i=1∂Loss∂Yi e.使用梯度下降优化算法根据学习率更新权重向量W和偏置项b,使损失函数值最小化,设学习率为η,如下式所示。
W=W−η∂Loss∂Wb=b−η∂Loss∂b f.重复步骤a~f直到损失函数值最小或达到预设的迭代次数,得到训练好的权重向量W和偏置项b,进而确定基学习器SLN模型。表6为基学习器SLN的相关参数设置。
表 6 基学习器SLN的参数取值Table 6. Parameter value of the base learner SLN参数 描述 值 learning rate 学习率,决定参数在每次迭代中更新的幅度 0.01 seq_len 序列长度 11 batch size 单次迭代中用于训练的样本数 1776 gamma 正则化项 0.2 epochs 训练轮次 50 random_state 随机状态 42 loss 损失函数 MSE optimizer 优化器 SGD 对于基学习器XGBoost,训练过程如下:a.计算XGBoost模型的损失函数的梯度和二阶导数:使用均方误差作为损失函数,计算每个食品微生物生长监测特征数据样本i的一阶导数gi(梯度)和二阶导数hi,如下式所示。
gi=∂Loss(Yi,Yitrue)∂Yitrue=−2(Yi−Yitrue)hi=∂2Loss(Yi,Yitrue)∂2Yitrue=2 b.计算XGBoost模型中叶子节点的权重(Leaf Weight)[33]:对于每个叶子节点v,计算其权重wv,如下式所示。
wv=−∑i∈Ivgi∑i∈Ivhi+λ 式中,Iv是被分类到叶子节点v的样本索引集合,λ是正则化项。
c.计算分割增益(Split Gain):对于每个候选分割点,计算分割增益可以指导模型如何选择最佳的特征分割点,如下式所示。
SplitGain=12[GL2HL+λ+GR2HR+λ−(GL+GR)2HL+HR+λ]−λ 式中,GL与GR分别表示分割的左子集与右子集的梯度之和,HL与HR分别表示分割的左子集与右子集二阶导数之和。分割增益表示一次局部的改进量。
d.构建目标函数(Objective Function):构建带有正则化项的目标函数,其中正则化项通常用于控制模型的复杂度。目标函数的计算公式如下式所示。
Obj(s)=∑iLoss(Yitrue,Y(s-1)i)+∑St=1Ω(Tt) 式中,Obj(s)是第s轮迭代的目标函数,Yitrue为实际值,Y(s-1)i表示第s-1轮迭代的模型预测值,Tt表示第t棵树,Ω(Tt)表示正则化项。
e.根据分割增益选择最佳分割点:根据计算得到的分割增益选择最佳的分割点,以将数据集分割成两部分。f.重复迭代:重复b~e,进行多轮迭代,构建出多棵决策树,并将它们组合成XGBoost模型。表7为基学习器XGBoost的相关参数设置。
表 7 基学习器XGBoost的参数取值Table 7. Parameter value of the base learner XGBoost参数 描述 值 n_estimators 需要构建的树的数量 100 max_depth 树的最大深度,用于控制树的复杂度 7 min_child_weight 叶子节点上的最小样本数 1 eta 每次迭代中学习率的衰减率 0.3 subsample 行采样比例 0.5 colsample_bytree 列采样比例 0.5 booster 优化算法的类型 gblinear 步骤2:训练元学习器GBRT;将两个基学习器的预测值向量VSLN和VXGBoost以及总活菌计数TVC(预测目标)xi(i=1,2,⋯,1776)按照列合并为成一个1776×3维的基学习器预测结果矩阵P,作为元学习器GBRT的训练输入。
P=(VSLNVXGBoostN′k)=(h1h2⋯h1776l1x1l2x2⋯⋯l1776x1776) 具体而言,对于元学习器GBRT,训练过程如下:a.初始化模型:将训练集目标特征的平均值作为初始模型的预测值,如下式所示。
Y0(x)=argminc∑1776i=1Loss(Yitrue,c) 式中,Y0(x)是初始模型的预测值,损失函数Loss选择均方误差作为损失函数,c为初始的预测值,将其赋值为所有真实值的均值。
b.计算残差:计算模型预测值与实际目标值之间的残差,即残差为真实值减去预测值,如下式所示。
Rit=Yitrue−Yt−1(i) 式中,Rit为第t棵树的第i个样本的残差,Yt−1(i)是第t−1棵树对第i个样本的预测值。
c.训练第t棵回归树:使用残差作为目标值,训练第t棵回归树,如下式所示。
Tt(x)=argminT∑1776i=1(Rit−T(i))2 式中,Tt(x)表示第t棵树的预测值,T(i)表示对于第i个样本,当前这棵回归树T的预测值。
d.更新模型预测值:将第一棵回归树的预测结果与初始模型的预测值相加,得到更新后的模型预测值,如下式所示。
Yt(i)=Yt−1(i)+νTt(i) 式中,Yt(i)表示第t轮迭代后的模型预测值,Yt−1(i)表示第t−1轮迭代后的模型预测值,Tt(i)表示第t棵树的预测值,ν表示学习率。
e.重复迭代:重复a~d,直到达到预设的迭代次数。
至此,完成了元学习器GBRT的训练,即食品微生物生长预测模型ED-Stacking构建完成。
表8为元学习器GBRT的相关参数设置。
表 8 元学习器GBRT的参数取值Table 8. Parameter value of the meta learner GBRT参数 描述 值 n_estimators 需要构建的树的数量 100 max_depth 树的最大深度,用于控制树的复杂度 7 min_samples_leaf 叶子节点上的最小样本数 1 min_samples_split 控制节点分裂的最小样本数 2 min_weight_fraction_leaf 叶子结点的最小权重 0 subsample 子样本比例 1 loss 损失函数 MSE 2.3.3 ED-Stacking模型评价及其与基线模型的对比
为了更好的评估牛肉微生物生长预测模型ED-Stacking的预测效果,将其与SLN、XGBoost、GBRT、GRU和Transformer模型在相同的实验环境下,应用于牛肉微生物生长数据,进行对比实验,使用MSE和MAE来评判各模型在测试集上的性能。实验结果如表9所示,ED-Stacking的MAE和MSE值在6种模型中最小,说明ED-Stacking的预测结果与真实值的误差最小,可以更准确地预测牛肉中的微生物含量。
表 9 六个模型在牛肉微生物生长数据集上的对比实验结果Table 9. Comparative experimental results of six models on the beef microbial growth dataset方法 SLN GBRT XGBoost GRU Transformer ED-Stacking(本文模型) MAE 0.562 0.327 0.587 0.562 0.571 0.229 MSE 0.390 0.279 0.348 0.491 0.456 0.147 2.3.4 基于ED-Stacking预测结果的食品品质分类
由表2可知,当总活菌计数TVC值处于[0,3)范围内时,则表示牛肉品质为优秀;当总活菌计数TVC值处于[3,4)范围内时,则表示牛肉品质为良好;当总活菌计数TVC值处于[4,5)范围内时,则表示牛肉品质为可接受;当总活菌计数TVC值处于[5,+∞)范围内时,则表示牛肉品质为变质。通过比对总活菌计数TVC的预测值与表2,可以得到2220个时刻中各时刻牛肉预测品质标签。表10为牛肉预测品质四分类的混淆矩阵,经计算可得,优秀、良好、可接受和变质四个品质标签对应的分类精准率(Precision)分别为297/304=97.69%、231/240=96.25%、356/367=97.00%和1307/1309=99.84%,加权平均精准率Weighted-Precision=98.70%,分类效果较好,说明该方法是一种有效的牛肉品质预测的方法。
表 10 牛肉品质四分类的混淆矩阵Table 10. Confusion matrix for four classifications of beef quality分类 优秀_预测值(个) 良好_预测值(个) 可接受_预测值(个) 变质_预测值(个) 总计(个) 分类精准率(%) 优秀_真实值(个) 297 3 0 0 300 97.69 良好_真实值(个) 7 231 2 0 240 96.25 可接受_真实值(个) 0 2 356 2 360 97.00 变质_真实值(个) 0 4 9 1307 1320 99.84 总计(个) 304 240 367 1309 2220 98.70 2.4 食品微生物生长预测可视分析系统与案例分析
食品微生物生长预测可视分析系统FMPvis(Food Microbial Prediction Visual System),为食品领域专家和食品从业者对食品品质分类和及时发现食品微生物风险,提供了有效分析工具。以ED-Stacking应用于BMG数据集为例,FMPvis的主界面如图7所示。
2.4.1 环境因子随时间变化情况视图
图7A展示了BMG数据集中的11个环境因子随时间的变化情况。从0 min开始,传感器MQ137、MQ5和MQ6的电阻值呈波动上升趋势并逐渐趋于稳定,而传感器MQ135、MQ136、MQ138、MQ2、MQ3、MQ4、MQ8和MQ9的电阻值呈间歇性波动下降趋势,最终稳定。对照传感器与监测气体对照表和MOS传感器的工作原理,可以发现,氨、天然气、异丁烷、丙烷等还原性气体环境因子含量随时间波动下降并逐渐趋于稳定,一氧化碳、氢气、乙醇、甲醛和硫化氢等还原性气体环境因子含量随时间波动上升并趋于稳定,氮氧化物等氧化性气体随时间呈间歇性波动下降并趋于稳定。
2.4.2 传感器与监测气体对照表
图7B展示了BMG数据集中,各类传感器与其所监测的相关气体的对应情况。
2.4.3 TVC预测结果与真实值比较视图
图7C展示了将食品微生物生长预测模型ED-Stacking应用于BMG数据集后的预测结果(蓝色)与真实值(红色)的比较,黑色虚线标示了牛肉的变质点,即TVC大于5(lg CFU/g(mL))时,牛肉变质。基于ED-Stacking的牛肉微生物预测结果与真实值近似,误差值很小,验证了ED-Stacking对于牛肉中的微生物含量预测的准确性。
2.4.4 食品品质分类结果与真实品质对比视图
图7D利用柱状图(D1)和玫瑰图(D2)对比了根据TVC预测值对牛肉品质进行分类的结果(蓝色)和真实品质标签(红色),利用环形饼图(D3)展示了食品各品质的分布情况,在2220 min时间段内,大部分时刻(样本)牛肉品质已处于变质状态,且预测标签数量与真实标签数量相近。食品品质分类的预测标签数为:优秀304条、良好240条、可接受367条、变质1309条;真实品质标签数为:优秀300条、良好240条、可接受360条、变质1320条。
2.4.5 未来20 min内微生物含量变化趋势视图
图7E展示了未来20 min内微生物预测含量的变化情况,牛肉中的微生物含量不断增加,食品品质处于变质状态。
2.4.6 各属性对预测结果的影响程度视图
图7F分别采用SHAP方法(SHapley Additive exPlanations)与排列重要性PI(Permutation Importance)对ED-Stacking模型进行可解释性分析。SHAP分析视图(F1)中的每一点代表该属性的一个取值,传达了以下信息:a.特征重要性:从上至下,属性的重要性按高到低排序;b.影响:横轴表示变量对预测的结果是正向的还是负向的影响;c.原始值:每个点的颜色,表示该观测值在这个特征的取值大小,颜色越红表示该观测值在这个特征的取值越大,颜色越蓝表示该观测值在这个特征的取值越小;d.相关性:提供变量与预测结果相关性的信息,例如:MQ3的取值越高,预测的结果越是正向的影响,MQ138的取值越高,预测的结果越偏向负向的影响。排列重要性PI的基本思想是,如果一个特征对模型的预测结果很重要,那么将该特征的值随机重排,会显著地降低模型的性能;而如果一个特征对模型的预测影响不大,那么将该特征的值随机重排,模型的性能变化应该较小。排列重要性PI分析视图(F2)利用词云图展示了分析结果,对于总活菌计数TVC的影响越大则词越大,反之则越小,可知:MQ3对于总活菌计数TVC的影响最大,MQ137次之,MQ2对于总活菌计数TVC影响最小。
3. 结论
提出了一种基于集成学习的小样本牛肉微生物生长预测模型ED-Stacking,该模型与SLN、XGBoost、GBRT、GRU和Transformer五个基线模型相比,具有更低的预测误差,即更高的预测准确率。基于ED-Stacking模型对牛肉品质分类的预测结果,其加权平均精准率达到98.7%,可以满足牛肉微生物风险预测预警的需要。在此基础上,设计了一个食品微生物生长预测可视分析系统FMPvis,能够有效地实现食品微生物生长预测、食品品质预测、以及食品微生物生长数据的可视分析。最后,以BMG数据集为例进行了案例分析,验证了本文方法的有效性。
-
表 1 牛肉微生物生长数据集中各属性及其含义
Table 1 Attributes and their meanings in the beef microbial growth dataset
序号 属性名称 含义 1 TVC 总活菌计数 2 Label 表示食品品质的离散标签,取值分别有:“优秀”、
“良好”、“可接受”和“变质”3 MQ2 液化石油气、正丁烷、丙烷、甲烷、酒精、氢气、烟雾 4 MQ3 酒精、苯、甲烷(CH4)、己烷、液化石油气、一氧化碳 5 MQ4 甲烷(CH4),天然气 6 MQ5 液化石油气、天然气、城市燃气 7 MQ6 液化石油气、异丁烷、丙烷 8 MQ8 氢气(H2) 9 MQ9 甲烷、丙烷、一氧化碳 10 MQ135 氨(NH3)、氮氧化物、酒精、苯、烟雾、二氧化碳(CO2) 11 MQ136 硫化氢(H2S) 12 MQ137 氨(NH3) 13 MQ138 甲苯、丙酮、乙醇和甲醛 表 2 总活菌计数TVC与牛肉品质标签Label的对应关系
Table 2 Correspondence between TVC and beef quality Label
TVC取值 品质标签Label [0,3) 优秀 [3,4) 良好 [4,5) 可接受 [5,+∞) 变质 表 3 各环境因子与总活菌计数之间的Spearman相关系数
Table 3 Spearman correlation coefficient between environmental factors and TVC
环境因子 MQ3 MQ137 MQ138 MQ8 MQ135 MQ5 MQ9 MQ4 MQ6 MQ2 MQ136 相关系数 0.595 0.246 0.163 0.109 0.082 0.032 0.009 0.004 0.004 0.001 0.001 表 4 各环境因子的偏度和峰度
Table 4 Skewness and kurtosis of each environmental factor
变量 MQ2 MQ3 MQ4 MQ5 MQ6 MQ8 MQ9 MQ135 MQ136 MQ137 MQ138 偏度 4.075 0.957 1.525 −0.132 −0.221 −0.199 0.76 1.606 3.652 −1.607 2.423 峰度 19.505 1.73 1.29 −0.878 19.028 −0.221 1.481 3.197 14.799 1.21 7.35 表 5 九种模型的对比实验结果
Table 5 Comparative experimental results of nine models
方法 ARIMA GBRT LightGBM SVM XGBoost SLN LSTM GRU Transformer MAE 0.582 0.327 0.601 0.613 0.587 0.562 0.621 0.562 0.571 MSE 0.392 0.279 0.464 0.462 0.348 0.390 0.452 0.491 0.456 表 6 基学习器SLN的参数取值
Table 6 Parameter value of the base learner SLN
参数 描述 值 learning rate 学习率,决定参数在每次迭代中更新的幅度 0.01 seq_len 序列长度 11 batch size 单次迭代中用于训练的样本数 1776 gamma 正则化项 0.2 epochs 训练轮次 50 random_state 随机状态 42 loss 损失函数 MSE optimizer 优化器 SGD 表 7 基学习器XGBoost的参数取值
Table 7 Parameter value of the base learner XGBoost
参数 描述 值 n_estimators 需要构建的树的数量 100 max_depth 树的最大深度,用于控制树的复杂度 7 min_child_weight 叶子节点上的最小样本数 1 eta 每次迭代中学习率的衰减率 0.3 subsample 行采样比例 0.5 colsample_bytree 列采样比例 0.5 booster 优化算法的类型 gblinear 表 8 元学习器GBRT的参数取值
Table 8 Parameter value of the meta learner GBRT
参数 描述 值 n_estimators 需要构建的树的数量 100 max_depth 树的最大深度,用于控制树的复杂度 7 min_samples_leaf 叶子节点上的最小样本数 1 min_samples_split 控制节点分裂的最小样本数 2 min_weight_fraction_leaf 叶子结点的最小权重 0 subsample 子样本比例 1 loss 损失函数 MSE 表 9 六个模型在牛肉微生物生长数据集上的对比实验结果
Table 9 Comparative experimental results of six models on the beef microbial growth dataset
方法 SLN GBRT XGBoost GRU Transformer ED-Stacking(本文模型) MAE 0.562 0.327 0.587 0.562 0.571 0.229 MSE 0.390 0.279 0.348 0.491 0.456 0.147 表 10 牛肉品质四分类的混淆矩阵
Table 10 Confusion matrix for four classifications of beef quality
分类 优秀_预测值(个) 良好_预测值(个) 可接受_预测值(个) 变质_预测值(个) 总计(个) 分类精准率(%) 优秀_真实值(个) 297 3 0 0 300 97.69 良好_真实值(个) 7 231 2 0 240 96.25 可接受_真实值(个) 0 2 356 2 360 97.00 变质_真实值(个) 0 4 9 1307 1320 99.84 总计(个) 304 240 367 1309 2220 98.70 -
[1] 李红秋, 贾华云, 赵帅, 等. 2021年中国大陆食源性疾病暴发监测资料分析[J]. 中国食品卫生杂志,2022,34(4):816−821. [LI H Q, JIA H Y, ZHAO S, et al. Analysis of foodborne disease outbreaks in Chinese Mainland in 2021[J]. Chinese Journal of Food Hygiene,2022,34(4):816−821.] LI H Q, JIA H Y, ZHAO S, et al. Analysis of foodborne disease outbreaks in Chinese Mainland in 2021[J]. Chinese Journal of Food Hygiene, 2022, 34(4): 816−821.
[2] 杜琳, 温圣军, 袁刚. 大数据在食品安全监管风险预警中的应用[J]. 食品与机械,2022,38(11):82−85,124. [DU L, WEN S J, YUAN G. Research on the application of big data in food safety supervision risk early warning[J]. Food & Machinery,2022,38(11):82−85,124.] DU L, WEN S J, YUAN G. Research on the application of big data in food safety supervision risk early warning[J]. Food & Machinery, 2022, 38(11): 82−85,124.
[3] 周康, 刘寿春, 李平兰, 等. 食品微生物生长预测模型研究新进展[J]. 微生物学通报,2008(4):589−594. [ZHOU K, LIU S C, LI P L, et al. New advances in predictive food microbial growth model[J]. Microbiology China,2008(4):589−594.] ZHOU K, LIU S C, LI P L, et al. New advances in predictive food microbial growth model[J]. Microbiology China, 2008(4): 589−594.
[4] MOTOH H. Biology and ecology of Penaeus monodon[C]//Proceedings of the First International Conference on the Culture of Penaeid Prawns/Shrimps, 4-7 December 1984, Iloilo City, Philippines. Aquaculture Department, Southeast Asian Fisheries Development Center, 1985:27-36.
[5] JOHNSON K A, GOODY R S. The original Michaelis constant:translation of the 1913 Michaelis–Menten paper[J]. Biochemistry,2011,50(39):8264−8269. doi: 10.1021/bi201284u
[6] WANG J L, GUO X. The Gompertz model and its applications in microbial growth and bioproduction kinetics:Past, present and future[J]. Biotechnology Advances,2024,72(1):108335.
[7] BARANYI J, ROBERTS T A. A dynamic approach to predicting bacterial growth in food[J]. International Journal of Food Microbiology,1994,23(3−4):277−294. doi: 10.1016/0168-1605(94)90157-0
[8] MUNDIM K C, BARAIDI S, MACHADO H G, et al. Temperature coefficient (Q10) and its applications in biological systems:Beyond the Arrhenius theory[J]. Ecological Modelling,2020,431:109127. doi: 10.1016/j.ecolmodel.2020.109127
[9] KARGI F. Re-interpretation of the logistic equation for batch microbial growth in relation to Monod kinetics[J]. Letters in Applied Microbiology,2009,48(4):398−401. doi: 10.1111/j.1472-765X.2008.02537.x
[10] LI S Y, JIN X Y, XUAN Y, et al. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting[J]. Advances in Neural Information Processing Systems,2019,32:5244−5254.
[11] ZHOU H Y, ZHANG S H, PENG J Q, et al. Informer:Beyond efficient transformer for long sequence time-series forecasting[C]//Proceedings of the AAAI conference on artificial intelligence, 2021, 35(12):11106−11115.
[12] WU H X, XU J H, WANG J M, et al. Autoformer:Decomposition transformers with auto-correlation for long-term series forecasting[J]. Advances in Neural Information Processing Systems,2021,34:22419−22430.
[13] MARVIN H J P, BOUZEMBRAK Y. A system approach towards prediction of food safety hazards:Impact of climate and agrichemical use on the occurrence of food safety hazards[J]. Agricultural Systems,2020,178:102760. doi: 10.1016/j.agsy.2019.102760
[14] LIU N, BOUZEMBRAK Y, BULK L M, et al. Automated food safety early warning system in the dairy supply chain using machine learning[J]. Food Control,2022,136:108872. doi: 10.1016/j.foodcont.2022.108872
[15] ZHANG Z P, DING J L, ZHU C M, et al. Bivariate empirical mode decomposition of the spatial variation in the soil organic matter content:A case study from NW China[J]. Catena,2021,206:105572. doi: 10.1016/j.catena.2021.105572
[16] RAJAN V K, HASNA C K, MURALEEDHARAN K. The natural food colorant peonidin from cranberries as a potential radical scavenger-A DFT based mechanistic analysis[J]. Food Chemistry,2018,262:184−190. doi: 10.1016/j.foodchem.2018.04.074
[17] JIANG L B, ZHOU X L, JIANG F W, et al. One shot learning based on improved matching network[J]. Systems Engineering and Electronics,2019,41(6):1210−1217.
[18] RINU B, ALEXANDER I. Semi-supervised few-shot learning with MAML[C]. International Conference on Learning Representations, 2018.
[19] LIN Q, LIU Y B, WEN W, et al. Ensemble making few-shot learning stronger[J]. Data Intelligence,2022,4(3):529−551. doi: 10.1162/dint_a_00144
[20] WIJAYA D R. Dataset for electronic nose from various beef cuts[J]. Harvard Dataverse:Cambridge, MA, USA, 2018.
[21] WIJAYA D R, SARNO R, ZULAIKA E. Electronic nose dataset for beef quality monitoring in uncontrolled ambient conditions[J]. Data in Brief,2018,21:2414−2420. doi: 10.1016/j.dib.2018.11.091
[22] NADARGI D Y, UMAR A, NADARGI J D, et al. Gas sensors and factors influencing sensing mechanism with a special focus on MOS sensors[J]. Journal of Materials Science,2023,58(2):559−582. doi: 10.1007/s10853-022-08072-0
[23] 王晨阳. 计算斯皮尔曼系数公式的证明[J]. 延安大学学报:自然科学版,1997,16(1):71−73. [WANG C Y. Proof of calculating the formula for Spearman's coefficients[J]. Journal of Yan'an University:Natural Science Edition,1997,16(1):71−73.] WANG C Y. Proof of calculating the formula for Spearman's coefficients[J]. Journal of Yan'an University: Natural Science Edition, 1997, 16(1): 71−73.
[24] BENVENUTO D, GIOVANETTI M, VASSALLO L, et al. Application of the ARIMA model on the COVID-2019 epidemic dataset[J]. Data in Brief,2020,29:105340. doi: 10.1016/j.dib.2020.105340
[25] HASAN N. A methodological approach for predicting COVID-19 epidemic using EEMD-ANN hybrid model[J]. Internet of Things,2020,11:100228. doi: 10.1016/j.iot.2020.100228
[26] LIU X D, LIU Q, ZOU Y Y, et al. A self-organizing LSTM-based approach to PM2.5 forecast[C]//Cloud Computing and Security:4th International Conference, ICCCS 2018, Haikou, China, June 8–10, 2018, Revised Selected Papers, Part IV 4. Springer International Publishing, 2018:683-693.
[27] ZHU C X, WANG F G. Study on risk pre-warning model of china food based on SVM classification[C]//2010 International Conference on E-Product E-Service and E-Entertainment. IEEE, 2010:1−3.
[28] HUANG N E, SHEN Z, LONG S R, et al. The empirical mode decomposition and the Hilbert spectrum for nonlinear and non-stationary time series analysis[J]. Proceedings of the Royal Society of London. Series A:mathematical, physical and engineering sciences,1998,454(1971):903−995. doi: 10.1098/rspa.1998.0193
[29] BENITEZ D, GAYDECKI P A, ZAIDI A, et al. The use of the Hilbert transform in ECG signal analysis[J]. Computers in Biology and Medicine,2001,31(5):399−406. doi: 10.1016/S0010-4825(01)00009-9
[30] CAO D F, WANG Y J, DUAN J Y, et al. Spectral temporal graph neural network for multivariate time-series forecasting[J]. Advances in Neural Information Processing Systems,2020,33:17766−17778.
[31] LANGE H, BRUNTON S L, KUTZ J N. From fourier to koopman:Spectral methods for long-term time series prediction[J]. Journal of Machine Learning Research,2021,22(41):1−38.
[32] CUI S Z, YIN Y Q, WANG D J, et al. A stacking-based ensemble learning method for earthquake casualty prediction[J]. Applied Soft Computing,2021,101:107038. doi: 10.1016/j.asoc.2020.107038
[33] JABEUR S B, MEFTEH-WALI S, VIVIANI J L. Forecasting gold price with the XGBoost algorithm and SHAP interaction values[J]. Annals of Operations Research,2024,334(1):679−699.