基于岭回归机器学习算法的红葡萄酒质量等级鉴定研究
作者:***
来源:《全国流通经济》2019年第07期
        摘要:近年来,随着人们生活水平的提高,人们为了满足自身物质精神需求,对红葡萄酒等类似高档产品需求量与日俱增。而在葡萄酒鉴定行业当中,由于不同品酒员对葡萄酒评价主观性较大,从而导致葡萄酒的质量鉴定标准不同。针对这一问题,本文通过岭回归机器学习算法对红葡萄酒训练数据集进行建模,之后利用该模型对葡萄酒质量等级进行打分,总分为10分。机器学习的加入,使红酒鉴定更具客观性,并且使鉴定准确率和即时性均有大幅提高。
        关键词:红葡萄酒等级鉴定;人工智能;机器学习;岭回归;数据挖掘
        中图分类号:U47232 文献识别码:A文章编号:
        2096-3157(2019)07-0087-02
        一、引言
        1重要性
        食品工业的相关研究表明,葡萄酒中含有多种维生素、氨基酸和矿物质,可有效调节新陈代射、促进血液循环、降低胆固醇等。由于葡萄酒的这种营养价值和医疗保健作用,葡萄酒的消费量越来越大,其品质的鉴别问题也逐渐得到关注。现阶段,在评价葡萄酒质量时一般是通过一批有资质的评酒员进行感官评定,每个评酒员在对葡萄酒品尝后进行打分然后确定出葡萄酒的质量,由于品酒员间存在评价尺度、评价位置和评定方法等方面的差异,导致不同品酒员对同种酒的评价差异较大,从而影响到葡萄酒的质量的评价结果,所以出更准确客观的评价葡萄酒质量的方法是必要的。与此同时,科学技术的发展使得客观评价葡萄酒质量成为可能,统计学与数据挖掘方法为其提供了技术支撑,本文基于数据挖掘分析技术对葡萄酒质量的评价进行了实证研究,完善葡萄酒质量等级制。
        2创新点
        本研究创新点在于将人工智能机器学习技术与葡萄酒质量检验领域进行有机结合。机器学习是计算机基于数据构建模型并运用模型对新样本进行预测和分析的学科,此技术应用于多个领域,比如自动驾驶,人脸识别等。本研究即通过研究和分析1599个红葡萄酒样本来构
建红葡萄酒质量评测模型,之后利用该模型对红葡萄酒质量进行预测。
        通过将机器学习引入红酒质量检测领域,可使该过程变得更加智能化,仅需将红酒的11项特征进行输入,便可在很短的时间内得到由机器自主精准预测出的该红酒的等级分数,由于该过程不需品酒员的主观性参与,因此其结果更具客观性。
        二、训练数据集与数据预处理
        1红葡萄酒训练数据集介绍
        本研究所使用的葡萄酒训练数据集来自UCI Machine Learning Repository网站(http://archiveicsuciedu/ml/datasets/Wine+Quality),该数据集名称为“Wine Quality Data Set”,作者为Paulo Cortez。数据集包含1599个红葡萄酒样本,目标是构建红葡萄酒质量检验模型,从而分析和预测新的红葡萄酒样本的质量,标签为分数(1~10)。葡萄酒分类
        该数据集的特征由与红葡萄酒质量有关的11项理化指标组成,特征字段与特征解释如表所示。
        2标准化
        数据预处理作用为清理和纠正数据集中不完整和不一致数据,从而使模型构建更加准确和高效,根据本研究所使用数据集的特点,本文所采用的数据预处理方法为标准化。
        标准化的作用是消除特征值本身的量纲和数值大小的影响,从而保证数据本身特点不会干扰机器学习的预测,标准化公式为:
        x’ =x-xα,
        x’表示标准化后的特征值数据,x为原始特征值,为某特征所在列的平均值,α为特征所在列的标准差。标准化的结果为通过改变特征值将数据集中的每列数据的均值变为0,方差变为1,即每一个特征的特征值服从标准正态分布。
        三、岭回归算法
        1算法概述
        岭回归算法是一种基本的机器学习回归算法,其算法即为将基本线性回归与正则化相结合,因此该算法具有防止过拟合、提高模型泛化能力的优势。岭回归算法输入为实验所用的
训练数据集和新样本的特征向量x,输出为新样本的标签值y。算法原理为首先由线性叠加函数表示决策函数,接着利用最小化损失函数的方法得到最好的模型参数,最后利用该模型对新样本的特征进行分析并对样本的标签值进行预测。岭回归的决策函数为:
        y=w·x+b,
        其中x为样本特征向量,y为输出标签值,w为权值向量,b为偏置,w和b均为模型参数。
        2模型构建
        根据上文岭回归模型所知,决策函数中包含两个参数w和b。模型參数估计的目的即为求出最好的w和b的值,从而得到了效果最好的模型,该过程包括构建损失函数和最小二乘法两个阶段。
        (1)损失函数
        本研究所使用的损失函数为均方误差,其用来衡量模型的失败程度,即模型预测值和真实值的差距,公式为:
        L(w,b)=1n∑ni=1(yi-y′i)2+λ2w2
        即:L(w,b)=1n∑ni=1(yi-w·xi-b)2+λ2w2
        其中,y’表示模型预测的样本标签值,y表示真实的标签值,λ2w2为正则项,λ为正则系数。
        正则项的引入,可有效简化算法模型,防止过拟合的发生。
        此时参数估计问题变为损失函数的最小化问题,即求出使损失函数取最小值时的w和b值。
        (2)最小二乘法
        据上文所知,该损失函数为凸函数,因此当损失函数对w和b的偏导数为0时,损失函数取得最小值,此时便得到最好的参数,即得到最好的决策函数。
        上文求得损失函数为:
        L(w,b)=1n∑ni=1(yi-w·xi-b)2+λ2w2
        损失函数对w和b的偏导数为:
        Lw=-2n
        ∑ni=1xi(yi-w·xi-b)+λw
        Lb=-2n
        ∑ni=1xi(yi-w·xi-b),
        令Lw=0,Lb=0,以此求出最合适的w和b值,将其代入y=w·x+b中,即到了最好的岭回归模型。
        3模型预测
        由上文所得,已知岭回归模型即红酒质量评估模型,之后收集新的红葡萄酒样本,将其11项理化特征进行总结,作为特征向量x输入到模型之中,最后通过该决策函数求得样本对应的标签值y即该红酒样本的等级分数,以此来评测葡萄酒质量。
        4模型评估
        本研究所使用的模型评估方法为十折交叉验证,即将数据集分成10份,轮流将其中9份作为训练集数据,1份作为测试集数据,其中训练集用来训练模型,测试集用来评估模型预测好坏。
        本研究所使用的模型评估指标为均方根误差,公式为:
        RMSE=1n
        ∑ni=1(yi-y′i)2
        十折交叉验证中每次模型训练均会得出相应的均方根误差,将10次均方根误差的平均值作为对模型精度的估计,以此评测模型好坏。
        5训练结果
        本研究所使用的红葡萄酒数据集包含在“红葡萄酒xlsx”表格中,本实验所使用的编程语言为Python3,编程软件为Spyder,使用的Python工具包包括sklearn、time、pandas以及numpy。本实验代码如图1所示:
        据图2所知,10次训练模型的预测均方根误差均在055~075之间,其平均值为065,误差在合理范围内,并且整个过程仅需02秒,基本体现机器学习准确性和实时性高的优势,即省去人工参与的同时也令其预测更加快速,而且结果更加准确。
        四、结语
        本文主要围绕红葡萄酒的质量等级鉴定问题进行研究,首先,分析利用机器学习进行葡萄酒预测的重要性和优势,并对所使用的训练数据集进行详细介绍。其次,阐述建立岭回归模型以及利用该模型进行预测的方法。最后,采用十折交叉验证的算法进行模型评估。但本研究仍存在不足之处,比如只利用了岭回归一种机器学习算法进行研究,较为单一,缺少比较,而且数据集样本量较少也是模型预测不够精确的主要原因。
        虽然存在一定缺陷,但本实验极大程度地省去了人工参与的部分,这是人工智能最直接的作用,由于消除了大部分人工分析的主观性影响,因此其预测结果更具客观性和准确性。随着科学技术的进步,机器学习也将一同发展,本研究也会逐渐弥补实验的不足,丰富实验的成果,笔者相信在不远的未来机器学习在大部分领域终将取代人工,更好地为互联网时代发光发热。
        参考文献:
        [1]周志华机器学习[M].清华大学出版社,2016
        [2]李航统计学习方法[M].清华大学出版社,2012
        作者簡介:
        赵耀泽,乌鲁木齐市第四十一中学学生。