现行的葡萄酒质量的评价体系是建立在人的感官上进行的,如何通过一些量化的理化指标来评价葡萄酒质量是一个值得研究的方向。为此,利用多元统计分析的相关知识,通过研究酿酒葡萄的理化指标和葡萄酒的质量之间的关系,客观的评价了葡萄酒的质量,成功的对酿酒葡萄进行了分级。
标签:t检验法;K均值聚类;典型相关分析;多元线性回归
1问题背景
葡萄酒质量的好坏主要依赖于评酒员的感观评价,由于人为主观因素的影响,对于酒质量的评价总会存在随机差异,到一种简单有效的客观方法来评酒,如何采用一个量化的评价标准就显得尤为重要了。本文根据全国大学生数学建模竞赛2012年A题的问题和数据,通过研究酿酒葡萄的好坏与所酿葡萄酒的质量的关系,以及葡萄酒和酿酒葡萄检测的理化指标之间的关系,对葡萄酒的质量进行了客观评价和分级。
2模型假设
(1)假设附件数据来源真实有效;
(2)假设两组品酒员在相同环境下品酒,采用评分标准一样;
(3)假设酿酒葡萄和葡萄酒编号一一对应。
3符号说明
4模型建立与求解
4.1问题一的模型建立与求解
4.1.1数据预处理
在数据分析之前通常要对数据进行预处理,附件1包含两组品酒员分别对红葡萄酒和白葡萄酒的评分数据,每组品酒员有10个,红葡萄酒样品有27个,白葡萄酒样品有28个。观察数据我们可以发现,部分数据存在缺失和异常现象,我们对其正常化处理。对于数据缺失情况,例如第一组红葡萄酒样品20号中品酒员4号对调评分数据缺失,我们采用剩余数据的均值替换法来修补缺失数据。对于数据异常情况,例如第一组白葡萄酒样品3号中品酒员7
酿酒葡萄号对持久性数据评分超过其规定最大值,我们也是采用“先舍弃后均值替换”的方法。
4.1.2评分数据正态性的检验
对数据进行预处理后,我们对附件1中品酒员对酒样品的评价总分进行了计算,然后得出了红葡萄酒和白葡萄酒的得分均值,其图像如图1、图2所示。
观察图1、图2可以发现,两组品酒员对红葡萄酒和白葡萄酒的得分均值虽然在数值上有出入,但其变化趋势大致一样,为了评价两组品酒员的评价结果有无显著性差异,我们拟采用双正态总体t检验法,为此我们需要对两组品酒员的评分数据进行正态性检验。