[机器学习笔记]⽤Python分析:红葡萄酒质量分析(数据
索)
⽤Python分析:红葡萄酒质量分析(数据探索)
数据集:winemag-data_first150k.csv
先来导⼊数据
import numpy as np
严宽杜若溪电视剧import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
import statsmodels.formula.api as smf
宫2赵丽颖陈晓
from statsmodels.formula.api import ols, glm
# 将数据集读⼊到pandas数据框中
wine = pd.read_csv('C:\\Machine-Learning-with-Python-master\\data\\winemag-data_first150k.csv', sep=',', header=0)
print(wine.head())金希澈车祸
查看数据集的⾏和列信息
#查看数据集⾏列数
print("该数据集共有 {} ⾏ {} 列".format(wine.shape[0],wine.shape[1]))
解释⼀下列的含义:
黎华安列名含义
country葡萄酒来⾃的国家
description描述葡萄酒的味道、⽓味、外观、感觉等
designation酿酒⼚内的葡萄园,酿造葡萄酒的葡萄来⾃葡萄园
points Wine Enthusiast 对葡萄酒的评分为 1-100 (尽管他们说他们只对评分>=80的葡萄酒发表评论)price⼀瓶葡萄酒的成本
province葡萄酒来⾃的产地
region_1葡萄酒来⾃的产地
region_2葡萄酒来⾃的产地
variety⽤于酿造葡萄酒的葡萄种类
winery⽣产葡萄酒的酿酒⼚
关于鸟的谚语显⽰数据集中的记录
检查数据集中列信息的空值
各个Column内容的描述性统计
关注 price  的描述性统计信息
wine['province'].value_counts().head(10).plot.bar()
从上图中可以看出California的产量远远⾼于世界其他省份的产量,我们可能会问,California葡萄酒占总葡萄酒的百分⽐是多少?这个柱形图告诉我们绝对值,但知道相对⽐例更有⽤。
从上图可以得知California出产的葡萄酒⼏乎占葡萄酒杂志评论的三分之⼀。
柱形图⾮常灵活:⾼度可以表⽰任何东西,只要它是⼀个数字。每个栏可以代表任何东西,只要它是⼀个分类。
上例的中省份分类是⼀个定类数据(没有内在固有⼤⼩或⾼低顺序),还有⼀种分类数据是定序数据,它相对于定类数据类型来说存在⼀种程度有序现象,例如下例中葡萄酒不同评分的评论数量。
从上图可看到,每个葡萄酒的总分都在80到100分之间。有20个分数值类别,柱状图刚好可以完全展⽰这些值。如果评分是0-100呢?恐怕⽆法完全展⽰每个类别的情况,这时,我们需要使⽤折线图。
使⽤⾯积图
当只绘制⼀个变量时,⾯积图和折线图之间的区别主要是可视化的。在这种情况下,它们可以互换使⽤。
每个样本都有得分从1到10的质量评分,以及若⼲理化检验的结果
直⽅图是⽤⼀系列等宽不等⾼的长⽅形来绘制,宽度表⽰数据的范围间隔,⾼度表⽰频数或者频率。
查看葡萄酒价格分布有关秋天的词语