[机器学习笔记]用Python分析:红葡萄酒质量分析(数据探索)

[机器学习笔记]⽤Python分析：红葡萄酒质量分析（数据探

索）

⽤Python分析：红葡萄酒质量分析（数据探索）

数据集：winemag-data_first150k.csv

先来导⼊数据

import numpy as np

严宽杜若溪电视剧import pandas as pd

import seaborn as sns

import matplotlib.pyplot as plt

import statsmodels.api as sm

import statsmodels.formula.api as smf

宫2赵丽颖陈晓

from statsmodels.formula.api import ols, glm

# 将数据集读⼊到pandas数据框中

wine = pd.read_csv('C:\\Machine-Learning-with-Python-master\\data\\winemag-data_first150k.csv', sep=',', header=0)

print(wine.head())金希澈车祸

查看数据集的⾏和列信息

#查看数据集⾏列数

print("该数据集共有 {} ⾏ {} 列".format(wine.shape[0],wine.shape[1]))

解释⼀下列的含义：

黎华安列名含义

country葡萄酒来⾃的国家

description描述葡萄酒的味道、⽓味、外观、感觉等

designation酿酒⼚内的葡萄园，酿造葡萄酒的葡萄来⾃葡萄园

points Wine Enthusiast 对葡萄酒的评分为 1-100 （尽管他们说他们只对评分>=80的葡萄酒发表评论）price⼀瓶葡萄酒的成本

province葡萄酒来⾃的产地

region_1葡萄酒来⾃的产地

region_2葡萄酒来⾃的产地

variety⽤于酿造葡萄酒的葡萄种类

winery⽣产葡萄酒的酿酒⼚

关于鸟的谚语显⽰数据集中的记录

检查数据集中列信息的空值

各个Column内容的描述性统计

关注 price 的描述性统计信息

wine['province'].value_counts().head(10).plot.bar()

从上图中可以看出California的产量远远⾼于世界其他省份的产量，我们可能会问，California葡萄酒占总葡萄酒的百分⽐是多少?这个柱形图告诉我们绝对值，但知道相对⽐例更有⽤。

从上图可以得知California出产的葡萄酒⼏乎占葡萄酒杂志评论的三分之⼀。

柱形图⾮常灵活:⾼度可以表⽰任何东西，只要它是⼀个数字。每个栏可以代表任何东西，只要它是⼀个分类。

上例的中省份分类是⼀个定类数据(没有内在固有⼤⼩或⾼低顺序)，还有⼀种分类数据是定序数据，它相对于定类数据类型来说存在⼀种程度有序现象，例如下例中葡萄酒不同评分的评论数量。

从上图可看到，每个葡萄酒的总分都在80到100分之间。有20个分数值类别，柱状图刚好可以完全展⽰这些值。如果评分是0-100呢?恐怕⽆法完全展⽰每个类别的情况，这时，我们需要使⽤折线图。

使⽤⾯积图

当只绘制⼀个变量时，⾯积图和折线图之间的区别主要是可视化的。在这种情况下，它们可以互换使⽤。

每个样本都有得分从1到10的质量评分，以及若⼲理化检验的结果

直⽅图是⽤⼀系列等宽不等⾼的长⽅形来绘制，宽度表⽰数据的范围间隔，⾼度表⽰频数或者频率。

查看葡萄酒价格分布有关秋天的词语

[机器学习笔记]用Python分析:红葡萄酒质量分析(数据探索)

发布评论取消回复

最近发表

热门文章

标签列表