酒店评论数据分析和挖掘-展现数据分析全流程(一)报告展示篇

酒店评论数据分析和挖掘-展现数据分析全流程（⼀）报告展⽰篇

本系列⽂章应该会出四篇博客展现数据分析的整个流程

数据报告成品展⽰（本⽂）

描述性数据分析

关键字提取分析

评论情感分类建模

LDA主题模型分析

下⾯是本⽂的写作框架：

1. 分析背景

1.1 分析原理—为什么选择分析酒店⽹络评论

随着互联⽹的发展, 我们的⽣活也愈加便捷, ⽹上购物及预订酒店和景点门票已是多少数⼈的选择。移动互联⽹时代，酒店业的市场更加风云变幻，其中最为显著的问题就是酒店该如何正确理解消费者的期望，据此评估⾃⼰服务质量的表现，并针对性的加以改善呢？

1.2 分析⽬的

企业职工退休金

在本项⽬中的分析⽬的主要有4个：

1. 对酒店数据进⾏描述性分析，主要针对出差类型、酒店房型及评分等⽅⾯；

2. 通过⽂本分类对酒店评论进⾏情感分类标注，便于进⾏下⼀步分析；

3. 依据情感分类标注对数据级，对正负样本分别进⾏LDA主题分析探索评论数据；

4. 将杂芜⽆序的结构化数据和⾮结构化数据进⾏可视化，展现数据之美

1.3 分析⽅法— 分析⼯具和分析类型

python3.7.4 (编程语⾔)

numpy (数组转换)

pandas (数据转换)

Gensim (词向量、主题模型)

Scikit-Learn（分类）

李代沫是同志Jieba(分词和关键词提取)

郎朗老婆吉娜的资料

孟鹤堂结两次婚matplotlib (可视化)

Tableau (可视化)

使⽤上述数据分析⼯具, 我将进⾏两类数据分析: 第⼀类是⽐较传统的、针对数值型数据的描述下统计分析，如评论量、评论分数等在时间维度上的分布；另⼀类将进⾏深层次的数据挖掘, 包括关键字提取、情感分类、评论内容LDA主题模型提取

2. 数据采集和⽂本预处理

2.1 数据采集

使⽤ Python 爬取⽹络订购酒店⽹站的⽹络评价，数据采集的时间区间为2016.12~2019.12，共计35,867条，采集的字段为评论⽇期、酒店评分、评论内容、出差类型及酒店房型, 然后经过⼈⼯提取4个特征，主要是时间特征（时点和周⼏）和评论长度特征（标题字数和⽂章字数），数据如下图所⽰:

2.2 ⽂本预处理

数据分析/挖掘领域有⼀条⾦科⽟律：“Garbage in, Garbage out”，**做好数据预处理，对于取得理想的分析结果来说是⾄关重要的。**本⽂的数据规整主要是对⽂本数据进⾏清洗，处理的条⽬如下：

（1）分词

要进⾏⽂本挖掘，分词是最为关键的⼀步，它直接影响后续的分析结果。本次使⽤jieba来对⽂本进⾏分词处理，它有3类分词模式，即全模式、精确模式、搜索引擎模式：

精确模式：试图将句⼦最精确地切开，适合⽂本分析；

全模式：把句⼦中所有的可以成词的词语都扫描出来, 速度⾮常快，但是不能解决歧义；

搜索引擎模式：在精确模式的基础上，对长词再次切分，提⾼召回率，适合⽤于搜索引擎分词。

现以“做好数据预处理对于取得理想的分析结果来说是⾄关重要的”为例，3种分词模式的结果如下：

笨贼丧擒救世主【全模式】: 做好/数据/预处理/处理/对于/取得/理想/的/分析/结果/来说/是/⾄关/⾄关重要/重要/的

【精确模式】: 做好/数据/预处理/对于/取得/理想/的/分析/结果/来说/是/⾄关重要/的

【搜索引擎模式】: 做好/数据/处理/预处理/对于/取得/理想/的/分析/结果/来说/是/⾄关/重要/⾄关重要/

的

为了避免歧义和切出符合预期效果的词汇，本次采取的是精确（分词）模式。

（2）去停⽤词

这⾥的停⽤词主要包括以下三类：

标点符号：’!’, ‘"’, ‘#’, ‘$’, ‘%’, ‘&’, “’”, ‘(’, ‘)’, ‘*’, ‘+’,

特殊符号：’［①①］’, ‘［①②］’, ❤❥ ♋☮✌

⽆意义的虚词：‘他’, ‘他⼈’, ‘他们’, ‘以’, ‘以上’, ‘以下’, ‘以为’

3. 描述性分析

本环节主要对数值型类型的数据进⾏探索性数据分析，了解数据分布，从数据中获得有⽤的信息，它属于较为常规的数据分析，能揭⽰出⼀些问题，做到知其然。

侯磊个人资料3.1 评论数量、评分变化⾛势及出游类型

从下图可以看出从（2017.01-2019.12）平均评分起伏波动不⼤，在均值 4.7 上下波动，进⼊2019年酒店评论数有上升趋势，每年的第3季度为酒店⾼峰期。

下⾯是⼀张复合图，左上⾓的图主要描述的是房型在每年的排名凹凸图，我们可以发现⾼级⼤床房⼀直都是⽐较受欢迎的房型，从环形图我们可以看出⼤部分游客都是商务出差和亲⼦旅游，从平均评分来看商务出差的平均评分是最低的，这样的结果让⼈深思，应该从哪些⾓度去改善呢？最下⾯的折线图是以⽉为单位评论数据的趋势，橙⾊为预测评论数量结果。

4. ⽂本挖掘

数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有⽤的并最终可理解的模式；⽽⽂本挖掘（在⽂本数据库也称为⽂本数据挖掘或者知识发现）是从⼤量⾮结构的数据中提炼出模式，也就是有⽤的信息或知识的半⾃动化过程。

4.1 关键字提取

衡量指标：⼀个词在⽂章中出现的次数越多，则它就越重要。因⽽，本次采⽤的是TF-IDF（termfrequency–inverse document frequency）的关键词提取⽅法：

它⽤以评估⼀字/词对于⼀个⽂件集或⼀个语料库中的其中⼀份⽂件的重要程度，字/词的重要性会随着它在⽂件中出现的次数成正⽐增加，但同时会随着它在语料库中出现的频率成反⽐下降。

由此可见，在提取某段⽂本的关键信息时，关键词提取较词频统计更为可取，能提取出对某段⽂本具有重要意义的关键词。

酒店评论数据分析和挖掘-展现数据分析全流程(一)报告展示篇

发布评论取消回复

最近发表

热门文章

标签列表