葡萄酒的评价
摘要
本文主要运用统计分析方法,解决与所酿葡萄酒有关的问题。对于问题一,,分别对白酒和红酒的两组数据进行差异性检验。构建一个能反应葡萄酒本身质量的量,对两组数据分别进行相关性分析,得到第二组评酒员的结果更可信。对于问题二,先做聚类分析,再做线性回归分析,得到白、红葡萄分为4级和3级。对于问题三,利用问题二中聚类得到的7个主成分,把每种葡萄酒的理化指标与酿酒葡萄之间的7个主成分进行相关性分析,得到7个回归方程,即为酿酒葡萄与葡萄酒的理化指标之间的联系。对于问题四,首先建立模型:12W=a *Y +b *Y 。其中a,b 分别为酿酒葡萄和葡萄酒对葡萄酒质量的贡献率,1Y ,2Y 分别为两种因素的贡献值。然后,通过确定芳香物质是否对葡萄酒的评分有影响来论证能否用葡萄和葡萄酒的理化指标评价葡萄酒的质量。
问题一中,本文运用excel 做两组数据的显著性差异检验,得到两组评酒员在评论白酒和红酒都存在显著性差异,且通过了F 检验。接着本文通过确定各指标的权重,构建一个能反应各葡萄酒实际平分的量,把两组数据与之做相关性分析,发现第二组与之相关性更大,故第二组评酒员的结果更可信。
问题二中,本文通过SPSS 做理化指标的聚类分析,得到7个主成分;再做指标与评分的线性回归分析,得到白葡萄的分级结果为4级:
一级:白酿酒葡萄14,22;
二级:白酿酒葡萄4,5,9,19,23,25,26,28; 三级:白酿酒葡萄24,27;
四级:白酿酒葡萄1,2,3,6,7,8,10,11,12,13,15,16,17,18,20。 红葡萄酒为3级:
一级:红酿酒葡萄2,9;
二级:红酿酒葡萄3,4,10,22,24; 三级:红酿酒葡萄
1,5,6,7,8,11,12,13,14,15,16,17,18,19,20,21,23,25,26,27。 问题三中,本文运用excel 将葡萄酒的一级指标分别与7个主成分进行相关 性分析然后对每种主要成分利用SPSS 进行线性回归分析得到以下7个回归方程:
()
()
()()()
r1134r21367r3137r4136r6137
r71Y =-39.542+1.727+21.850+3.9463Y =4.044+0.026-0.156-0.005-0.1954Y =2.807+0.021-0.030-0.1895Y =2.700+0.024-0.169-0.0056Y =0.069+0.001-0.006-0.0077Y =70.028-0.188+x x x x x x x x x x x x x x x x x ()()
2347r812356
0.841+0.280-0.187+1.7048Y =58.545-0.021-1.028+1.666+27.045-0.0049x x x x x x x x x
即为每种酿酒葡萄与葡萄酒理化指标之间的联系。
问题四中,建立模型:12W=a *Y +b *Y 。对模型运用线性回归的方法,得到
红葡萄酒中红酿酒葡萄和葡萄酒对葡萄酒质量的影响方程为:W=0.078Y+0.947Y-1.735。白葡萄酒中酿酒白葡萄对葡萄酒质量的影响力为:12
y=1.01x-0.854;白葡萄酒的理化指标对葡萄酒的质量无影响。考虑到葡萄酒的评分与芳香物质有关,于是通过单独确定芳香物质是否对葡萄酒的评分有影响来论证能否用葡萄喝葡萄酒的理化指标评价葡萄酒的质量。最终得到能用葡萄和葡萄酒的理化指标来评价葡萄酒的质量。
关键词:聚类分析主成分分析多元线性回归      spss    excel
一、问题重述
确定葡萄酒质量时一般是通过聘请一批有资质的评酒员进行品评。每个评酒员在对葡萄酒进行品尝后对其分类指标打分,然后求和得到其总分,从而确定葡萄酒的质量。酿酒葡萄的好坏与所酿葡萄酒的质量有直接的关系,葡萄酒和酿酒葡萄检测的理化指标会在一定程度上反映葡萄酒和葡萄的质量。附件中给出了某一年份一些葡萄酒的评价结果以及该年份这些葡萄酒的和酿酒葡萄的成分数据。建立数学模型讨论下列问题:
1.(1)分析附件1中两组评酒员的评价结果有无显著性差异; (2)两组评酒员哪一组结果更可信?
2. 根据酿酒葡萄的理化指标和葡萄酒的质量对这些酿酒葡萄进行分级。
3. 分析酿酒葡萄与葡萄酒的理化指标之间的联系。
4.分析酿酒葡萄和葡萄酒的理化指标对葡萄酒质量的影响,并论证能否用葡萄和葡萄酒的理化指标来评价葡萄酒的质量?
二、模型假设
1.假设所给附件中,数据均准确可靠。
三、符号说明
()11,2,3,4i g i =:四组数据的偏度值。 ()21,2,3,4j g j =:四组数据的峰度值。
012:H μμ=,则假设两组品酒员的两组评价结果无显著差异。
11:H μ,2μ不相等,则假设两组品酒员的两组评价结果有显著差异。
γ: 相关系数。
Y :回归方程。
四、问题分析
4.1 第一问需要根据附件1中给出的两组评酒员的评价结果数据,判断两组评价结果有无显著性差异,在判断哪一组结果更可信。
本文用Excel 对两组评价结果进行方差分析,直接比较输出结果即可得出有无显著性差异的结论。但是能够进行方差分析的先决条件是数据满足正态分布,所以实现要验证四组将进行方差分析的四组数据是否满足正态分布。
对于可信度的判断,本文将从选取葡萄酒样品的一级指标进行权重分析,将权重与一级指标进一步计算得到新的权值,再将这组权值与两组评酒员的评价结果的平均值进行相关分析,对得到的相关系数作比较即可判断可信度的高低。为了更全面的考虑其可信度,本文也会对其标准差进行对比,双重验证其可信度。 4.2用相关分析法和主成分分析法将用于计算的酿酒葡萄理化指标进行了筛选,最终确定的7个主成分所包含的成分指标基本可以代表所有测定的成分指标。
用SPSS 求出红酿酒葡萄和白酿酒葡萄的多元线性回归方程,用聚类分析法绘制树状聚类图,再利用回归方程,对酿酒葡萄进行分级。
4.3要分析酿酒葡萄与葡萄酒的理化指标之间的联系,用SPSS 将葡萄酒的一级指标分别与酿酒葡萄的7个主成分进行相关性分析,建立回归方程,既能说明酿酒葡萄与葡萄酒的理化指标之间的联系。
五、模型的建立与求解
5.1对第一问求解 5.1.1(1)
分析判断附件一中两组评酒员的评价结果有无显著性差异,利用双因素方差分析,以红酒为例,将问题转述为:分析第一组和第二组评酒员对27种红酒样品的评价结果有无显著差异性。
要利用双因素方差分析,首先数据要满足正态分布。判断数据是否满足正态分布可以根据其偏度和峰
度来衡量。
偏度:()
3
131
1n
i i g X X
s ==-∑    峰度:(
)
4
24
1
1
n
酿酒葡萄
i i g X X
s
==-∑
偏度反应分布的对称性。10g >称为右偏态,此时数据位于均值右边的比位于左边的多;10g <;称为左偏态,情况相反;而1g 接近于0则可认为分布是对称的。
峰度是分布形状的另一种度量。正态分布的峰度为3,若2g 比3大很多,表
示分布有沉重的尾巴,说明样本中含有较多远离均值的数据,因而峰度可用作衡量偏离正态分布的尺度之一。
用Matlab 计算出四组数据的偏度与峰度:    对于红葡萄酒,第一组评酒员的评价结果 110.9214g =-,21  3.5464g =;                第二组评酒员的评价结果 120.1343g =-,22  2.5521g =;  对于白葡萄酒,
第一组评酒员的评价结果 130.3717g =-,23  2.8229g =;                第二组评酒员的评价结果 140.8295g =-,24  3.8269g =。
()11,2,3,4i g i =为四组数据的偏度值,()21,2,3,4j g j =为四组数据的峰度值。
四组偏度值均趋近于0,四组峰度值均趋近于3,所以可以认为方差分析要使用到得四组数据均服从正态分布。、 5.1.1(2)
现在可以进行差异性的分析。  ①先准备表格(见表1)。
表1 红葡萄酒品尝评分表
红葡萄酒样品    1    2    3    4 … 24 25 26 27 第一组 62.7 80.3 80.4 68.6 … 78 69.2 73.8 73 第二组 68.1 74 74.6 71.2 … 71.5 68.2 72 71.5          白葡萄酒样品    1    2    3    4 … 25 26 27 28 第一组 82 74.2 78.3 79.4 … 77.1 81.3 64.8 81.3 第二组 77.9 75.8 75.6 76.9 … 79.5 74.3 77 79.6
②然后提出假设012:H μμ= (两组品酒员的两组评价结果无显著差异)              11:H μ,2μ不相等(两组品酒员的两组评价结果有显著差异) ③最后在Excel 内进行计算,输出结果见表2。
表2 红葡萄酒样品评价结果的方差分析的Excel 输出结果
差异源 SS df MS    F P-value    F crit 行 88.67852    1 88.67852 6.140657 0.020027 4.225201 列 1444.729 26 55.56651 3.847774 0.000507 1.929213 误差 375.4715 26 14.44121    总计 1908.879 53    可得出结论:  6.140657>  4.225201F F α==,拒绝原假设0H ,说明对于红葡萄酒, 两组评酒员的评价结果有显著性差异。