Rapid Detection of Astaxanthin in Antarctic Krill Meal by Computer Vision Combined with Convolutional Neural Network
摘要: 为实现南极磷虾粉中虾青素含量的快速检测,借助计算机视觉和卷积神经网络建立了一种虾粉虾青素含量的测定方法。以70个南极磷虾粉样本,通过高效液相色谱法测定虾青素含量,计算机视觉系统采集图像,将虾青素含量与图像对应组成数据集并对数据集进行数据增强;使用TensorFlow学习框架构建模型,使用5折交叉验证进行模型调参及评估并选出最优参数模型;随机划分数据集对最优参数模型进行评估,最后随机挑选数据集中的30张图像进行模型验证。结果显示经过交叉验证后的最优参数模型的均方根误差(Root Mean Square Error,RMSE)为3.59;模型评估阶段,模型重复运行3次,测试集的决定系数(Coefficient of Determination,R2)、均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、RMSE的平均值分别为0.9626、1.49、4.22、2.05。模型验证阶段,模型预测虾青素含量的相对误差介于0.10%~6.46%之间,预测结果与观测值之间偏差较小。因此,该虾青素含量预测模型能够较准确地预测虾青素含量,进而实现虾粉虾青素含量的快速无损检测。Abstract: To achieve rapid detection of astaxanthin content in Antarctic krill meal, a determination method for astaxanthin content in krill meal was established using computer vision and convolutional neural networks. A total of 70 Antarctic krill meal samples were analyzed using high-performance liquid chromatography to determine their astaxanthin contents as label, and corresponding images of the samples were acquired using a computer vision system to form the dataset and the dataset was augmented. The model was built using the TensorFlow learning framework. The 5-fold cross-validation was used to tune and evaluate the model and select the optimal parameter model. The optimal parameter model was evaluated by randomly dividing the dataset, and 30 images from the dataset were randomly selected for model validation. The results showed that the optimal hyperparameters model with a root mean square error (RMSE) of 3.59 was preserved through a five-fold cross-validation. For model evaluation, the model was repeated three times. The mean values of the coefficient of determination (R2), mean absolute error (MAE), mean square error (MSE), and RMSE for the test set were 0.9626, 1.49, 4.22, and 2.05, respectively. For model validation, the relative errors ranged from 0.10% to 6.46%, indicating small deviations between the predictions and the observations. The astaxanthin content prediction model demonstrated high accuracy, enabling quick and nondestructive detection of astaxanthin content in krill meal samples.
- computer vision /
- convolutional neural network /
- Antarctic krill /
- astaxanthin /
- rapid detection
虾粉和冻虾是南极磷虾(Euphausia superba)最主要的船载加工产品,虾粉因含水量低更加便于运输和贮藏[1]。虾粉可直接作为饲料用于养殖业,也可以在陆基进一步精深加工生产虾油等高附加值产品[2]。虾粉中富含多种营养成分和活性物质,包括蛋白质、脂肪、虾青素和低温酶等,其中虾青素含量可达100~350 mg/kg[3−4]。虾青素(3,3′-二羟基-β,β′-胡萝卜素-4,4′-二酮基(C40H52O4))是类胡萝卜素的一种,南极磷虾体内色素95%以上均以虾青素的形式存在[5]。虾青素具有抗氧化活性、抗衰老和预防心脑血管疾病等功能,研究表明其抗氧化活性是叶黄素、角黄素和 β-胡萝卜素的 10 倍,是 α-生育酚的 100倍[6−7]。虾青素特有的生物活性为虾粉精深加工奠定了物质基础,但虾青素分子中的共轭双键、羟基和末端的不饱和酮基使得其性质极不稳定[8]。
目前虾青素检测方法主要有高效液相色谱法、分光光度法和液质联用法等[9],这些方法均需要复杂的样品前处理和较长的检测分析时间,且配套设备昂贵、损坏样品且使用大量化学试剂[10]。虾青素在贮运流通和精深加工过程中容易受温度、光照、氧气等因素影响造成异构化和降解,影响其活性功能[11]。虾青素在热处理温度达到30 ℃开始缓慢下降,超过55 ℃开始加速下降[12]。Lu等[13]研究以92~98 ℃热处理10 min虾青素含量降低17%。光能激活虾青素使之与溶剂发生反应产生自由基导致异构化和降解[8]。Zhang等[14]研究发现波长365 nm的LED光能明显促进虾青素的异构化。虾青素共轭双键链末端的基团易与各种氧化剂反应导致异构化和降解[8]。因此亟需开发一种快速、经济、无损且环保的检测方法,用于实时跟踪虾粉在精深加工和贮运流通过程中虾青素的含量变化。
计算机视觉(Computer Vision,CV)也称机器视觉,是通过硬件设备和算法将感官信息捕捉转化为机器可以识别的信息的技术,具有非破坏、低成本、高精度等优点[15]。CV一般的工作流程为图像采集→图像预处理→特征值提取→分析[16]。近年来,随着算法迭代和硬件提升CV在食品分类、快速检测、质量评价、缺陷检测等方面广泛运用。卷积神经网络(Convolutional Neural Network,CNN)是一种针对二维信息如图像、视频处理的技术,是一种优秀的多层神经网络[17]。CNN可以直接输入图像数据,通过卷积来提取图像特征,将提取的特征传递给池化层进行压缩降维,然后通过全连接层进行整合输出[18],短时间内可以处理大量的图像数据,在图像识别、分类等领域运用广泛。Gila等[19]提出了基于计算机视觉快速测定初榨橄榄油中水分含量的方法,结果R2为0.996;Fernandes等[20]使用计算机视觉技术快速测定鸡肉汉堡中的脂肪含量,最佳结果R2为0.95,RMSEP为2.01%;Pauline等[21]使用计算机视觉结合深度学习算法测定哈密瓜中的可溶性固形物含量,同时将CNN与传统模型进行对比,结果表明CNN表现明显优于其它模型。虽然CV在食品工业生产中广泛运用,但多用于分类和缺陷检测,获取图像特征信息进行快速检测任务的较少,且结合CV技术及CNN用于虾青素的含量检测尚未有报道。
1. 材料与方法
1.1 材料与仪器
虾粉 取样于中国水产集团“龙发号”捕捞船;虾粉(用于贮藏)、磷虾原料 中国水产集团;丙酮、氢氧化钠、磷酸、二氯甲烷(色谱纯)、硫代硫酸钠 国药集团化学试剂有限公司;甲醇 J.T.Baker;叔丁基甲醚(色谱级) 阿法埃莎(中国)化学有限公司;碘 上海麦克林生化科技股份有限公司;虾青素标准品(纯度99.0%) LGC(Laboratory of the Government Chemist 英国政府化学家实验室);PSA填料(40~60 μm) 长沙华学生物科技有限公司;所有试剂除注明外均为分析纯(AR)。
Agilent 1260液相色谱(Liquid chromatograph)及紫外检测器(VWD) 美国安捷伦(Agilent)科技有限公司;CNW色谱柱(C30,4.6×250 mm,5 μm) 上海安谱科学仪器有限公司;Research plus移液器(100~1000 μL) 德国 Eppendorf(艾本德)公司;FA3204B电子天平 上海天美天平仪器有限公司;MER2-1220-32U3M/C工业相机 中国大恒(集团)有限公司;EL3Z0416UCS-MPWIR镜头(4.0~10 mm) 日本 Computar公司;DHK-TL20030-W光源(6000 K)及控制器 上海楷威光电科技有限公司;DHG9240A电热鼓风干燥箱 上海一恒科学仪器有限公司。
1.2 实验方法
1.2.1 样品获取
贮藏取样:将购置虾粉过40目筛以10 g每袋进行真空包装后置于鼓风干燥箱60、37、25 ℃和冰箱4、−18 ℃进行贮藏。60 ℃设置15个取样时间点,37 ℃设置12个取样时间点,25 ℃设置13个取样时间点,4 ℃设置4个取样时间点,−18 ℃设置2个取样时间点,如表1所示,总计获取46个不同状态样品。
表 1 虾粉贮藏温度及取样时间点Table 1. Krill meal storage temperature and sampling time points温度(℃) 取样时间(h) 60 3、6、9、12、24、48、72、96、120、144、168、192、216、240、360 37 6、12、24、48、72、96、120、144、168、192、216、240 25 0、24、48、72、96、120、144、168、192、240、288、336、384 4 120、240、360、480 −18 240、480 直接取样:2021年3~8月在中国水产集团捕捞船“龙发号”上取样的不同批次船载加工样品21个,磷虾原料经蒸煮、粉碎后在真空度0.04 Pa,温度分别为75、85、95 ℃条件下干燥4 h模拟船载加工的样品3个,总计24个虾粉样品,取样时均过40目筛。
1.2.2 高效液相色谱法测定虾青素含量
参考SC/T 3053-2019水产品及其制品中的虾青素含量的测定方法[22],测定虾粉样品的虾青素含量。
样品处理:称取1 g虾粉(精确到两位小数),每个样品设置3组平行,加入10 mL丙酮于低于15 ℃进行超声提取15 min,后置于离心机设置8000 r/min离心5 min,取上清,残渣加入5 mL丙酮重复提取、离心步骤,合并上清液,取2 mL加入2.9 mL NaOH-甲醇溶液,充氮密封置于4 ℃冰箱提取13 h,然后加入0.1 mL 0.6 mol/L磷酸甲醇、100 mg PSA填料,涡旋混合,静置5 min,过0.22 μm微孔膜后进行检测,测得的虾青素含量作为对应样品的观测值。
色谱条件:柱温为25 ℃,流速1.0 mL/min,单针进样量为20 μL,使用VWD检测器波长设置为474 nm。设置流动相A为超纯水、B为甲醇、C为叔丁基甲醚、D为1%磷酸溶液,A主要用于管路清洗,洗脱程序总计35 min,流动相D全程以4%比例洗脱,15~23 min流动相比例为66% B、30% C,23~27 min为16% B、80% C,其余时间均为81% B、15% C。
1.2.3 计算机视觉系统设置及虾粉图像采集
如图1(B)所示,CV系统主要包括七个部分:一个摄影棚,用于减少外部光源干扰;一台工业相机,分辨率为1200万像素;一个相机镜头,2个条形光源,色温为6000 K;一台光源控制器,一个相机支架,一台笔记本电脑。相机及光源水平0°放置,设置镜头距离样品10 cm,条形光源距离样品6 cm,光源控制器设置输出1/2功率。用工业相机将虾粉样品进行图像采集,每个样品取2 g使用内径40 mm,高度5 mm圆形容器,平铺稍按压后,置于取景框中间位置,进行图像采集,每个样品采集2~3张图像,采集图像以3036×4042像素、以jpg格式储存。
1.2.4 图像预处理
如图2所示,将采集的虾粉图像自图像中心裁剪为224×224像素作为兴趣区域(Regions of Interest,ROI),以jpg格式保存。将裁剪后的图像使用水平翻转、垂直翻转、旋转180°的方法进行数据增强,增强后图像对应虾青素观测值与原图像一致。
1.2.5 构建CNN模型
硬件平台:采用英特尔(Intel)的Core i7-11800H处理器,主频为2.30 GHz,内存容量为16 GB,配备NVIDIA GeForce GTX3060显卡,显存大小为6 GB;开发环境:使用PyCharm 2020.1.1集成开发环境(Python 3.6、TensorFlow-GPU 2.6.0库)进行代码编写和调试;基于Keras框架使用ReLU激活函数构建CNN。
1.2.6 确定模型参数
将所有虾粉样品图像及对应观测值作为数据集,使用完整数据集进行模型调参。迭代次数:为了确定合适的迭代次数,将迭代次数设置为200,根据迭代损失确定迭代次数。超参数:使用K折交叉验证(K-Fold Cross Validation)进行CNN模型交叉验证,使用自适应梯度下降(Adaptive Moment Estimation,Adam)算法,默认学习率0.001,批大小设置为32,设置折数为5(n_splits),用均方根误差(Root Mean Square Error,RMSE)作为模型得分 [23],使用验证集计算得分,保存最佳得分模型为最优模型。RMSE计算公式如下:
RMSE=2√1N∑Ni=1(Yi−Zi)2 (1) 式中:Yi和Zi分别表示观测值和预测值,mg/kg。
1.2.7 模型评估及验证
将完整数据集随机进行数据集划分,对1.2.6得到的最优参数模型进行分析,模型重复运行3次。对测试集数据采用决定系数(Coefficient of Determination,R2)、均绝对误差(Mean Absolute Error,MAE)、均方误差(Mean Square Error,MSE)、均方根误差(RMSE)并绘制观测值及预测值的散点图、残差图综合评估模型预测效果[24]。随机挑选30张图像输入到最优参数模型进行模型验证,计算观测值和预测值之间的相对误差进行分析。RMSE计算公式同公式(1),R2、MAE、MSE计算公式如下:
R2=1−∑ni=1(Yi−Zi)2∑ni=1(Yi−¯Yi)2 (2) MAE=1N∑Ni=1|Yi−Zi| (3) MSE=1N∑Ni=1(Yi−Zi)2 (4) 式中:Yi和Zi分别表示观测值和预测值,¯Yi为观测值的算术平均值,mg/kg。
1.3 数据处理
采用Excel 2019软件进行数据整理制表,Origin 2021和基于Python 3.6的Seaborn 0.11.2库进行数据分析,Photoshop 2021进行示意图制作。
2. 结果与分析
2.1 虾青素含量
通过高效液相色谱法测得的虾青素含量如表2所示,虾粉的虾青素含量最高为50.46 mg/kg,这与杜紫燕等[25]使用高效液相色谱测定新鲜南极磷虾粉的虾青素含量一致。较广的数据范围,有利于提高模型的精度和性能[26]。本研究收集的70个虾粉样品的虾青素含量的分布范围为0.12~50.46 mg/kg,获得虾青素数据覆盖范围较广。数据整体方差为129.70,数据之间的差异性较大,数据点与平均值之间的距离较大,数据的分布合理,适用于模型拟合且有利于提高模型性能。
表 2 不同虾粉样品中的虾青素含量Table 2. Astaxanthin content in different krill meal samples序号 虾青素含量(mg/kg) 序号 虾青素含量(mg/kg) 序号 虾青素含量(mg/kg) 1 0.12±0.04 25 14.95±0.03 49 21.6±0.06 2 0.53±0.15 26 15.24±0.10 50 21.87±0.04 3 1.65±0.08 27 15.52±0.06 51 21.95±0.04 4 2.37±0.06 28 15.76±0.05 52 22.05±0.08 5 3.64±0.05 29 16.13±0.10 53 22.11±0.11 6 3.85±0.08 30 16.36±0.08 54 22.43±0.02 7 3.94±0.07 31 16.6±0.09 55 23.01±0.09 8 4.32±0.04 32 16.77±0.03 56 23.15±0.02 9 4.78±0.01 33 17.3±0.20 57 23.51±0.07 10 4.99±0.10 34 17.77±0.02 58 23.56±0.27 11 5.59±0.09 35 18.37±0.05 59 26.85±0.07 12 5.76±0.03 36 18.63±0.03 60 27.59±0.05 13 5.86±0.10 37 18.63±0.02 61 27.89±0.12 14 6.6±0.01 38 18.74±0.05 62 30.49±0.08 15 7.54±0.15 39 19.15±0.06 63 31.51±0.22 16 8.1±0.08 40 19.17±0.04 64 36.36±0.08 17 8.44±0.26 41 19.37±0.09 65 40.02±0.45 18 8.97±0.05 42 20.31±0.01 66 43.77±0.05 19 9.4±0.10 43 20.36±0.28 67 44.29±0.43 20 10.95±0.11 44 20.4±0.05 68 44.86±0.37 21 13.18±0.04 45 20.63±0.09 69 45.96±0.65 22 13.35±0.15 46 21.1±0.08 70 50.46±0.45 23 13.56±0.02 47 21.21±0.06 24 14.18±0.17 48 21.34±0.03 2.2 虾粉样本的计算机视觉图像
如图3(A)所示,本研究总共获取虾粉图像192张,每张图像大小约为1.16 MB。去除原始图像的冗杂信息,提取任务所需的ROI可以避免高分辨率图像导致的计算压力,同时提升模型稳定性[18]。提取虾粉图像的ROI如图3(B)所示,每张图像大小仅约为9.07 kB,去除多余背景避免了背景信息干扰及过大的计算压力。为了提高模型的训练效果和准确率,数据增强是常用的手段[27]。将ROI图像进行数据增强后,总计获得虾粉图像及观测值数据768组,如图3(C)所示,不同虾青素含量的样品图像在观感上颜色存在明显的差异,提供了广泛的数据特征,适用于基于图像数据建立虾青素预测模型。
2.3 虾粉虾青素含量预测模型
常用的CNN架构有很多,如VGGNet、GoogLeNet、ResNet等,这些架构通常用来处理复杂的CV任务,具有相对复杂的结构,需要较长的训练学习时间[10,24]。其中VGGNet常用来处理涉及颜色特征的任务,通常具有16或者19层卷积层的复杂结构[28]。Zhang等[29]提出了一种能完成相似颜色任务的3层卷积神经网络,作者认为减少网络复杂度可以减少训练时的计算量和内存空间。Cotrim等[30]提出一种Short-CNN,由3层卷积层构成,结果显示Short-CNN训练阶段的内存大小需求较低,与VGGNet-16相比减少了97.0%,在处理相对简单的任务时,使用结构简单的网络模型可以避免使用复杂模型时的负面影响。因此,根据任务需求同时为避免过大的计算压力,本研究构建了用于虾粉虾青素含量预测的精简CNN模型有4层卷积层组成如图4所示。CNN模型通常由输入层、卷积层、池化层、全连接层和输出层五部分构成[10]。输入层设置输入图像的形状为224×224像素,包含3个RGB色彩通道。5个卷积区域,每个区域包括1个卷积层(Conv)和1个最大池化层(MaxPool)、1个Flatten层以及2个全连接层(Fully Connected),均使用非线性的ReLU激活函数。输入层对虾粉图像数据进行归一化处理,卷积层用来提取图像特征,池化层处于两个卷积层之间将提取的数据进行降维,Flatten层将所有卷积层输出的特征图展平成一维向量,全连接层用于把所有层提取的特征进行汇总分析。全连接层的第1层使用ReLU激活函数,具有64个神经元,第2层为了实现回归任务不使用激活函数,具有1个神经元,使其输出线性连续的值,即虾青素含量。
2.4 确定模型参数
2.5 模型评估及验证
如图6所示,使用完整数据集对最优模型进行评估,模型重复运行3次。每次迭代耗时2 s,总计160 s完成模型训练。残差是观测值和预测值之间的差异,将残差作为纵坐标,观测值作为横坐标绘制残差图来观察数据情况,将观测值和预测值作散点图,并拟合直线方程。模型3次运行的残差结果均为随机分布,没有明显的趋势或模式,随机性优异说明模型的合理性;设置3倍标准差作为离群值线,3次运行结果仅有极少量的离群值,占比为1.30%、1.95%、2.60%,说明测试集数据整体分布于正常范围,产生的极少数离群值可能是由于图像采集过程中产生的噪声及虾青素含量检测造成的误差导致的。R2是广泛使用的拟合优度评估指标,有研究认为R2值在0.82~0.9范围内表明模型性能良好,而R2值大于0.9则认为模型可以充分预测具体目标[35]。Gao等[36]使用偏最小二乘回归和极限学习机预测西府海棠可溶性固形物含量,模型R2范围分别为0.908~0.958和0.908~0.941,认为模型具有较好的预测精度。计算测试集数据的R2,分别为0.9654、0.9625、0.9599,3次运行的R2值相差较小,说明模型较为稳定,平均值达0.9626,模型对数据拟合效果较好,能够准确预测虾粉中的虾青素含量。
表 3 测试集数据的观测值与预测值及其相对误差Table 3. Observed and predicted values and their relative errors for the test set data序号 观测值(mg/kg) 预测值(mg/kg) 相对误差(%) 序号 观测值(mg/kg) 预测值(mg/kg) 相对误差(%) 1 22.97 21.67 −5.67 16 4.01 3.92 −2.30 2 21.18 20.09 −5.13 17 19.19 18.91 −1.47 3 16.33 15.57 −4.65 18 16.42 16.29 −0.78 4 21.84 20.88 −4.40 19 18.61 18.63 0.10 5 23.84 22.79 −4.40 20 5.73 5.80 1.20 6 23.53 22.55 −4.18 21 22.12 22.41 1.33 7 16.8 16.18 −3.69 22 23.16 23.50 1.47 8 6.6 6.37 −3.50 23 21.19 21.77 2.75 9 14.98 14.50 −3.22 24 19.11 19.66 2.87 10 17.79 17.23 −3.16 25 14.32 14.75 2.99 11 4.77 4.62 −3.10 26 21.98 22.64 3.02 12 20.54 19.93 −2.96 27 20.31 21.11 3.93 13 15.47 15.05 −2.70 28 19.46 20.42 4.93 14 15.21 14.80 −2.69 29 2.41 2.55 5.63 15 18.33 17.90 −2.37 30 18.61 19.81 6.46 3. 结论
本研究通过计算机视觉和CNN建立了针对南极磷虾粉中虾青素含量的快速测定方法,构建了一种虾粉虾青素含量预测模型。收集的虾粉样本虾青素含量覆盖范围为0.12~50.46 mg/kg。采集虾粉CV图像192张,数据增强后共获得768组数据。进行交叉验证后最优参数模型的RMSE为3.59,对最优参数模型的进行性能评估,在测试集上模型取得R2、MAE、MSE、RMSE的平均值分别为0.9626、1.49、4.22、2.05,模型能较好的预测目标变量。模型验证阶段,30个样本的验证结果相对误差整体低于6.46%,模型能较准确地预测虾粉虾青素含量。综上该方法能实现南极磷虾粉虾青素含量的快速检测,为实现虾粉加工、贮运过程中关键质量指标的快速检测提供新思路。
