第9期2018年5月No.9May,2018
无线互联科技
Wireless Internet Technology
确定葡萄酒的质量好坏需要有资质的评酒员对其进行分类指标打分,最后综合确定葡萄酒的质量。酿酒葡萄的质量直接决定了所酿葡萄酒的质量,葡萄酒和酿酒葡萄中所检测出的理化指标也在一定程度上反映了葡萄酒和葡萄的质量。
1 模型的建立及求解1.1 问题一:判断显著性差异和评价可信度 1.1.1 正态分布检验
分析品酒员评分的平均值是否符合正态分布,需要绘制相应的图表。如果正态概率图中期望累计概率和观测累计概率分布近似分布在斜率为1的直线上,则该数据近似或服从正态分布[1]。经过对图表的分析可知,两组数据均可看作近似正态分布。
1.1.2 参数的显著性差异
运用单因素方差分析法[2],因各组数据个数相等,称为
均衡数据,所以采用处理均衡数据的用法为:
p =anoval(x )进行处理。第一组与第二组红葡萄酒p =0.117 5>α=0.05,即第一组,第二组红葡萄酒的品尝评分无显著差异;白葡萄酒与此类似,得出第一组与第二组白葡萄酒p =0.022 6<α=0.05,即第一组,第二组白葡萄酒的品尝评分有明显差异。1.2 问题二:对酿酒葡萄进行分级1.2.1 多元线性回归方程的建立
由主成分分析模型我们得出了5个主成分,为了利用这5个主成分建立聚类分析模型,先根据这5个理化指标建立葡萄对葡萄酒质量的多元线性回归模型。利用附录程序三可以得出与F 对应的概率P =0.042 5<0.05,回归模型:
y =0.048 2+0×x 1-0.574 8×x 2-0.574 8×x 3-0.575 7×x 4+ 1.724 5×x 5
(y :葡萄酒质量;x 1:氨基酸;x 2:蛋白质;x 3:花苷;
x 4:有机酸;x 5:酚类)成立。1.2.2 聚类分析模型的建立
我们把5个主成分经过线性回归可以得到一个较好的回归模型,所以用这5个主成分的数据进行聚类,聚类得到树
型图,横轴为红葡萄的样品名,纵轴代表类间的最长距离。
我们可以根据主观判断在中间添加一条横线,将红葡萄聚类成4类[3](数字代表样品号)。
第一类:3,6,4,10,25,20,19,23第二类:2,9,14,5,13,26第三类:1,8,24第四类:7,22,12,15,18,21,11,16,17,27对每一类分别计算平均得分,结果如下:红葡萄第一类:71.825 等级(二);第二类:72.950 等级(一):第三类:68.533 等级(四);第四类:68.600 等级(三)。
计算每个等级红葡萄各理化指标均值,结果如表1所示。
表1 每个等级红葡萄各理化指标均值
等级氨基酸(mg/ 100gfw )蛋白质(mg/100g )花苷(mg/100g )有机酸(mg/100g )酚类(mg/100g )1 1 623.439 617.500 141.512 4.207 254.333 2 2 983.501 547.659 86.375 2.570 212.125 3 2 519.514 546.000 51.200 4.777 194.500 4
1 872.515
527.500
264.667
6.504
272.000
等级一优于其他等级的主要原因很可能是因为葡萄的蛋白质的含量远大于其他组。同理,之后进行线性回归,可以得出与F 对应的概率P =0.034 11<0.05,回归结果为:
y =77.182 3+0.000 2×x 1-0.008 7×x 2-1.215 2×x 3-0.866 2 ×x 4-0.097 7×x 5-0.031 1×x 6+0.010 4×x 7
(y :白葡萄酒质量;x 1:氨基酸;x 2:蛋白质;x 3:花苷;
x 4:有机酸;x 5:酚类;x 6:醇类;x 7:还原糖)成立。所以,我们可以利用这7个主成分建立聚类模型,将白葡萄聚类成4类。
第一类:6,27,13,17第二类:4,8,16,9,19,7第三类:1,11,15,18,24,2,21第四类:3,28,5,20,22,10,14,25,12,23,26对每一类分别计算平均得分,结果如下:
作者简介:赵建国(1999— ),男,河南濮阳人,本科生;研究方向:数学建模应用。
赵建国,何嘉玉,李怡婷,祝利杰
(河南师范大学,河南 新乡 453000)
摘 要:已知酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄监测的理化指标会在一定程度上反映葡萄
酒和酿酒葡萄的质量等条件,建立模型解决问题。文章主要通过正态分布、方差检验,建立主成分分析、多元线性回归、聚类分析、相关系数和逐步回归模型来解决问题。关键词:葡萄酒;正态分布;主成分分析;多元线性回归;聚类分析数学建模经典案例分析
—以葡萄酒质量评价为例
第9期2018年5月
No.9May,2018
白葡萄第一类(76.675),第二类(74.583),第三类
(76.500),第四类(77.564)。
计算每个等级红葡萄各理化指标均值,等级一优于其他等级的主要原因很可能是因为葡萄的氨基酸和还原糖的含量远大于其他组[4]。1.2.3 求解结果
通过最后的数据分析,假设上述聚类分析是合理的,可以看出,品质差的葡萄不能酿出好的葡萄酒,品质好的葡萄并不一定能酿出质量高的葡萄酒,可能会涉及许多其他的因素,如酿造的过程,工艺水平还有葡萄酒本身的理化指标;可以得出与题设一样的结论,酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系。1.3 问题三:相关系数模型和逐步回归模型1.3.1 相关系数模型
相关系数模型中的相关系数是判断相关程度的指标,相
关系数用r 表示,|r |越大,相关程度越大。相关系数的计算方
r (2)
相关系数模型针对葡萄和葡萄酒相同的理化指标进行
分析,经汇总发现红葡萄与红葡萄酒有9个相同的理化指标,白葡萄与白葡萄酒有8个相同的理化指标,由于每个指标都有不同的权重和性质,所以首先对各个原始数据进行标准化处理。相关系数如表2所示。
由表2可知,红葡萄酒中,花苷、单宁、总酚、酒总黄酮、1,1-二苯基-2-三硝基苯肼(1,1-diphenyl-2-picrylhydrazyl ,DPPH )相关性比较强。同理,可得到白葡萄酒中,单宁、总酚、酒总黄酮的相关性比较强。
无线互联科技·实验研究
Classic case analysis of mathematical modeling: taking wine quality evaluation as an example
Zhao Jianguo, He Jiayu, Li Yiting, Zhu Lijie
(Henan Normal University, Xinxiang 453000, China )
Abstract:
It is known that the quality of wine grapes has a direct relationship with the quality of the wines being brewed. The physical and chemical indicators of wine and wine grape monitoring will reflect the conditions of wine and wine grapes to some extent, and establish models to solve problems. This paper mainly solves the problem by using normal distribution and variance test, establishing principal component analysis, multiple linear regression, cluster analysis, correlation coefficient and stepwise regression model.
Key words:
wine; normal distribution; principal component analysis; multiple linear regression; cluster analysis [参考文献]
[1]杨希冬.实验数据异常值的剔除方法[J].唐山师范学院学报,1998(5):56-57.[2]刘荣,冯国生,丁维岱.SAS 统计分析与应用[M].北京:机械工业出版社,2011.
[3]聂继云,李明强,张桂芳,等.白梨品质评价指标的聚类分析[J].中国果树,2000(2):16-17.[4]百度百科.葡萄酒[EB/OL].(2010-09-09)[2018-04-08].baike.baidu/view/23275.htm.[5]谢中华.MATLAB 统计分析与应用:40个案例分析[M].北京:北京航空航天大学出版社,2010.[6]韩中庚.数学建模方法及其应用[M].北京:高等教育出版社,2009.
表2 红葡萄酒各指标相关系数
指标花苷单宁总酚酒总黄酮白藜芦醇DPPH 泽L 泽a 泽b 红葡萄酒
0.922 5
0.715 8
0.873 1
0.822 6
0.013 5
0.778 2
0.493 6
﹣0.542 0
0.025 5
1.3.2 逐步回归模型
逐步回归过程使用sterwise 函数[5]分别对红葡萄酒和白葡萄酒中每一个理化指标与红葡萄和白葡萄的每一个理化
指标的相关性进行分析 ,根据分析结果,只有x 4,
x 6是方程中的变量,其他的都从模型中移去,所以表达式为:
263.899+237.937×x i 4-49.124 9×x i 26 (3)1.4 因子分子模型
1.4.1 酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响
葡萄酒的每个指标都受酿酒葡萄中某些理化指标的影响[6],例如对于红葡萄酒的花苷指标受红葡萄的花苷和出汁率两个指标的综合影响,函数为:
263.899+237.937×x i 4-49.124 9×x i 26 (4)1.4.2 酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响
筛选出来的理化指标应该与相应的葡萄酒质量存在较酿酒葡萄
大的关联度,由问题三的解答中可以知道红葡萄酒与花苷、单宁、总酚、酒总黄酮、DPPH 相关性等理化指标相关性较强,白葡萄酒与单宁、总酚、酒总黄酮的理化指标相关性比较强。
2 模型的推广
(1)对于问题一建立的模型不仅适合于解决评分的差异性显著判断,还可以用于社会科学、行为科学、生物科学和数理科学等领域。
(2)主成分分析模型中的降维技术也可用到多种多影响成分的分析中去,另外,聚类模型也可以用于生活中大部分的分级问题。
(3)对于问题三建立的相关系数模型和逐步回归模型,可以推广到其他领域,如生物科学、数理科学等,分析两个变量之间的关系。
发布评论