哪个信用卡最好申请
【摘要】本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归与数据挖掘中的决策树实现对葡萄酒质量的分类评估,关注影响葡萄酒质量分类的关键指标。
【关键字】葡萄酒,理化指标,质量分类,逻辑回归分析,决策树
一、问题提出
葡萄酒是一种成分复杂的酒精饮料,葡萄酒行业评价葡萄酒质量时,惯用的是感官评价,但这种方法受评定人员的嗜好、习惯、情绪、年龄、经验等因素的影响较大,评定常有一定程度的主观性和不确定性,尤其在葡萄酒质量差别不大时,更易引起打分不一致和数据分析产生偏差,使品评结果不够科学。对葡萄酒质量通过量化的方法进行评价,为酿酒行业对葡萄酒进行质量分类提供理论参考成为必然。葡萄酒的成分与葡萄酒的质量关系密切,是判定葡萄酒质量的重要依据。
本文将根据葡萄酒成分的理化指标,主要通过统计中的逻辑回归方法与数据挖掘中的决策树实现对葡萄酒质量的分类评估,得到影响葡萄酒质量分类的重要指标。
苏珊米勒6月二、主要研究方法穿越火线绿联盟申请加入
大金空调怎么样针对葡萄酒质量及其理化指标的关系的理论研究方法,现在主要有多元线性回归、神经网络、支持向量机等方法。
本文主要采用数据挖掘中的逻辑回归分析与决策树及其优化对葡萄酒质量分类问题进行对比研究。逻辑回归模型主要研究某些因素与二分类变量之间的联系,通过逻辑变换,建立因变量与自变量的线性模型,其中,因变量的系数表示为该因素改变一个单位,个体发生事件概率与不发生事件概率之比的自然对数变化值。系数得到则主要通过最大似然估计。决策树通过选择分类效果最好的属性,把实例从根节点排列到某个叶子节点来分类实例,叶子结点即为实例的分类。本文主要通过rattle中包含的决策树的cart算法对葡萄酒质量进行分类研究。此外,本文还引入了adaboost算法对决策树分类进行优化,以得到对葡萄酒质量最佳的分类结果。
三、指标选取及数据探索
苏芒坐大腿事件本文主要选择葡萄酒的理化指标作为分类依据进行研究。参考文献并根据数据的可取得性,
最终选择非挥发性酸度、挥发性酸度、柠檬酸、剩余糖分、氯化物、游离二氧化硫、总二氧化硫、密度、硫酸盐、ph值、酒精11个理化指标作为输入变量。输出变量为基于感觉得到的葡萄酒质量(葡萄酒专家提出的至少3个评价的均值)。葡萄酒数据来源于uci数据库。对于输出变量,每位专家的葡萄酒质量分级介于0~10,其中0为质量极差,10为质量极好。极好的和极差的葡萄酒样本都是少数,评价为中间的葡萄酒样本最多。红葡萄酒样本总数有1599个,质量分为6类,分别评价为3至8。由于本文目的主要在于对质量评价相近的葡萄酒进行量化分类,故通过简单的统计红葡萄酒各评价的个数后,将葡萄酒质量进行0~1化。若红葡萄酒评价类别为3~5,则为0(质量差);若红葡萄酒评价类别为6~9,则为1(质量好)。数据中没有缺失值。选择前70%的样本进行建模,15%的样本进行验证,15%的样本进行测试。
形容美丽雪景的诗句
发布评论