本系列⽂章应该会出四篇博客展现数据分析的整个流程
数据报告成品展⽰(本⽂)
描述性数据分析
关键字提取分析
评论情感分类建模
LDA主题模型分析
下⾯是本⽂的写作框架:
1. 分析背景
1.1 分析原理—为什么选择分析酒店⽹络评论
随着互联⽹的发展, 我们的⽣活也愈加便捷, ⽹上购物及预订酒店和景点门票已是多少数⼈的选择。移动互联⽹时代,酒店业的市场更加风云变幻,其中最为显著的问题就是酒店该如何正确理解消费者的期望,据此评估⾃⼰服务质量的表现,并针对性的加以改善呢?
1.2 分析⽬的
企业职工退休金在本项⽬中的分析⽬的主要有4个:
1. 对酒店数据进⾏描述性分析,主要针对出差类型、酒店房型及评分等⽅⾯;
2. 通过⽂本分类对酒店评论进⾏情感分类标注,便于进⾏下⼀步分析;
3. 依据情感分类标注对数据级,对正负样本分别进⾏LDA主题分析探索评论数据;
4. 将杂芜⽆序的结构化数据和⾮结构化数据进⾏可视化,展现数据之美
1.3 分析⽅法— 分析⼯具和分析类型
python3.7.4 (编程语⾔)
numpy (数组转换)
pandas (数据转换)
Gensim (词向量、主题模型)
Scikit-Learn(分类)
李代沫是同志Jieba(分词和关键词提取)
郎朗老婆吉娜的资料孟鹤堂结两次婚matplotlib (可视化)
Tableau (可视化)
使⽤上述数据分析⼯具, 我将进⾏两类数据分析: 第⼀类是⽐较传统的、针对数值型数据的描述下统计分析,如评论量、评论分数等在时间维度上的分布;另⼀类将进⾏深层次的数据挖掘, 包括 关键字提取、情感分类、评论内容LDA主题模型提取
2. 数据采集和⽂本预处理
2.1 数据采集
使⽤ Python 爬取⽹络订购酒店⽹站的⽹络评价,数据采集的时间区间为2016.12~2019.12,共计35,867条,采集的字段为评论⽇期、酒店评分、评论内容、出差类型及酒店房型, 然后经过⼈⼯提取4个特征,主要是时间特征(时点和周⼏)和评论长度特征(标题字数和⽂章字数),数据如下图所⽰:
2.2 ⽂本预处理
数据分析/挖掘领域有⼀条⾦科⽟律:“Garbage in, Garbage out”,**做好数据预处理,对于取得理想的分析结果来说是⾄关重要的。**本⽂的数据规整主要是对⽂本数据进⾏清洗,处理的条⽬如下:
(1)分词
要进⾏⽂本挖掘,分词是最为关键的⼀步,它直接影响后续的分析结果。本次使⽤jieba来对⽂本进⾏分词处理,它有3类分词模式,即全模式、精确模式、搜索引擎模式:
精确模式:试图将句⼦最精确地切开,适合⽂本分析;
全模式:把句⼦中所有的可以成词的词语都扫描出来, 速度⾮常快,但是不能解决歧义;
搜索引擎模式:在精确模式的基础上,对长词再次切分,提⾼召回率,适合⽤于搜索引擎分词。
现以“做好数据预处理对于取得理想的分析结果来说是⾄关重要的”为例,3种分词模式的结果如下:
笨贼丧擒救世主【全模式】: 做好/数据/预处理/处理/对于/取得/理想/的/分析/结果/来说/是/⾄关/⾄关重要/重要/的
【精确模式】: 做好/数据/预处理/对于/取得/理想/的/分析/结果/来说/是/⾄关重要/的
【搜索引擎模式】: 做好/数据/处理/预处理/对于/取得/理想/的/分析/结果/来说/是/⾄关/重要/⾄关重要/
的
为了避免歧义和切出符合预期效果的词汇,本次采取的是精确(分词)模式。
(2) 去停⽤词
这⾥的停⽤词主要包括以下三类:
标点符号:’!’, ‘"’, ‘#’, ‘$’, ‘%’, ‘&’, “’”, ‘(’, ‘)’, ‘*’, ‘+’,
特殊符号:’[①①]’, ‘[①②]’, ❤❥ ♋☮✌
⽆意义的虚词:‘他’, ‘他⼈’, ‘他们’, ‘以’, ‘以上’, ‘以下’, ‘以为’
3. 描述性分析
本环节主要对数值型类型的数据进⾏探索性数据分析,了解数据分布,从数据中获得有⽤的信息,它属于较为常规的数据分析,能揭⽰出⼀些问题,做到知其然。
侯磊个人资料3.1 评论数量、评分变化⾛势及出游类型
从下图可以看出从(2017.01-2019.12)平均评分起伏波动不⼤,在均值 4.7 上下波动,进⼊2019年酒店评论数有上升趋势,每年的第3季度为酒店⾼峰期。
下⾯是⼀张复合图,左上⾓的图主要描述的是房型在每年的排名凹凸图,我们可以发现⾼级⼤床房⼀直都是⽐较受欢迎的房型,从环形图我们可以看出⼤部分游客都是商务出差和亲⼦旅游,从平均评分来看商务出差的平均评分是最低的,这样的结果让⼈深思,应该从哪些⾓度去改善呢?最下⾯的折线图是以⽉为单位评论数据的趋势,橙⾊为预测评论数量结果。
4. ⽂本挖掘
数据挖掘是从有结构的数据库中鉴别出有效的、新颖的、可能有⽤的并最终可理解的模式;⽽⽂本挖掘(在⽂本数据库也称为⽂本数据挖掘或者知识发现)是从⼤量⾮结构的数据中提炼出模式,也就是有⽤的信息或知识的半⾃动化过程。
4.1 关键字提取
衡量指标:⼀个词在⽂章中出现的次数越多,则它就越重要。因⽽,本次采⽤的是TF-IDF(termfrequency–inverse document frequency)的关键词提取⽅法:
它⽤以评估⼀字/词对于⼀个⽂件集或⼀个语料库中的其中⼀份⽂件的重要程度,字/词的重要性会随着它在⽂件中出现的次数成正⽐增加,但同时会随着它在语料库中出现的频率成反⽐下降。
由此可见,在提取某段⽂本的关键信息时,关键词提取较词频统计更为可取,能提取出对某段⽂本具有重要意义的关键词。
发布评论