微博热门话题公众情感的性别差异研究
高涵李兵郭楠邓一开
(对外经济贸易大学信息学院北京市 100029 )
摘要:情感分析与舆情监测是社交媒体分析的热点研究问题,学界和工业界取得了很多研究成果。但目前针对热门话题舆情监测研究中,往往只在整个人层面上关注情感发展趋势,而没有针对不同性别的公众情感进行深入对比分析。鉴于此,本研究以数个娱乐及民生话题为研究对象,以时间为脉络进行基于性别差异的微博情感分析,并通过引入ARIMA 模型预测不同性别人未来情感变化趋势,为探索更为精准的舆情监测效果进行有益的尝试。
关键词:相关性检验;时间序列预测;舆情监测;性别差异
Research on Gender Differences of Public Sentiment
Towards Heated Weibo Events
Abstract: Public sentiment monitoring is a popular theme in the study of on social media where a myriad of research concentrated on the whole population level towards certain heated events has been
done. However, few of them have analyzed the public sentiment based on the gender differences. Therefore, this paper would focus on several entertainment events and livelihood issues, analysis the different reactions among male and female towards those topics based on temporal term. By using the ARIMA model to predict different emotional changes of different gender, we attempt to offer feasible suggestions for public sentiment monitoring.
Keywords: Hypothesis Testing;Time Series Prediction;Public Sentiment Monitoring;Gender Differences
0 研究背景
微博作为被大众广泛接受的互联网社交服务平台,以其集成化、开放化、内容简介、交流便利的优势,促进了虚拟社会间的信息交流。通过在微博平台发表文字更新,用户可以发布自己当前的心情、状态,或对当前的热点问题发表自己的看法。在经历了 2011 年至 2012 年的快速增长期之后,微博市场逐步进入成熟期,截至2014 年6 月,我国微博用户规模为  2.75 亿,网民使用率为43.6%[1],从发展趋势分析,随着用户使用成熟度和内容偏好度的加深,微博平台作用提升,已经成为个人、机构以及其他媒体的信息发布交流平台,同时,从价值应用角度分析,随着微博数据的积累,微博将在舆情管理、行为预测、网络营销发挥更大价值。微博情感分析作为目前微博研究的热点领域,向研究人员提供了海量的意见资源,不断考量着人们对其分析和利用的能力。
本文针对新浪微博中用户对特定热点事件的情感极性,从事件发生日起,以天为单位,捕捉微博上关于该话题的相关评论,并判断其情感值,对比男女在同一事件上所表现的不同情感态度,进而来实现针对于不同性别的信息预测,例如一个新产品的推出,可在其上线之前便通过情感预测来判断不同性别对其的青睐程度,并针对不同性别进行定制的营销手段;同时,男女之间的情感差异对于舆情监控也有重要的意义,有越来越多的网民乐意通过微博来表达观点,逐渐成为舆情话题产生和传播的主要场所,网络信息和社会信息的交融对社会的直接影响越来越大,而通过将男女之间由同一事件引起的对特点问题的情感差异进行比较,可以更准确地进行舆情的监测控制。
基金项目:北京市哲学与社会科学项目(No.13JGB023)―北1 京应急产品储备与供应问题研究‖资助。作者简介:高涵(1993—),男,本科,研究方向:信息管理;通讯作者:李兵(1970—),男,博士,教授,研究方向:社会网络分析和数据挖掘;郭楠(1995—),女,本科,研究方向:电子商务;邓一开(1993—),男,本科,研究方向:信息管理。
1 研究现状
微博情感分析是近年来受各界关注的研究领
中,基于微博用户特征的用户行为分析占
有重要地位,国内王晓光[2]通过分析微博客影响力的相关变量,
进行了用户行为特征与关系特征实证分析;孙强[3]从人口统
计变量、社会变量、人格与
维度进行分析,挖掘
微博发展的影响;何黎[4]
网络中国进行核心用户挖掘以及个性化营销的
可行性;在 2015 年最新的研究中,刘翠娟[5] 针对
已有的情感分析研究多侧重在情感的倾向性问题,
提出一种基于依存句法和人工标注相结合的情感
分析方法,对于不同的社会事件, 以可视化方式来
展现不同地区微博体的情感。在国外,用户社会
经济因素,比如地域、年龄、性别、收入水平等都
是经常考虑的维度, 例如 Eszter[6]研究了人的性
别、种族和父母的教育背景与SNS 的使用相关相关
度。基于性别维度,性别差异早在 1999 年就由
柯震东Sheehan [7]开始了初步研究,表明女性更注重社交
网络中的隐私保护;M.G.Hoy[8]研究了不同性别对于
社交网络中行为广告的态度和效果差异,但舆情监
测中的性别研究还未有先例。本研究利用情感分析
技术,对热点事件中的不同性别的舆论差异进行了
对比分析,弥补了舆情监控领域中对于性别维度研
究的不足。John Brummette[9]通过研究在出现危机
时的推特上的情感变化,建立了最新的综合危机映
射模型,可以用来衡量公共危机对社会媒体的情绪
反应,为应对危机时的利益相关者提供了有价值的
信息。
在本文的研究中,运用情感分析的办法研究面
对微博热点话题时不同性别的人的情感差异,通
过采集微博原始评论数据,对其进行分词、清洗、
以及情感极性判断和词频统计,并建立ARIMA 模型
对话题随时间脉络的情感极性变化进行拟合,分析
情感差异,并探讨其在舆情监控和事件预测领域的
应用,提出了新的研究思路。图 1 所示为本文的主
要研究步骤:
2 理论模型
时间序列预测—ARIMA 模型时间序列分析是根
据系统观测得到的时间序
列数据,通过曲线拟合和参数估计来建立数学模型
的理论和方法。它一般采用曲线拟合和参数估计方
法(如非线性最小二乘法)进行。
本文选取的时间序列模型即为ARIMA 模型,全
称为自回归积分滑动平均模型,是指将非平稳时间
序列转化为平稳时间序列,然后将因变量仅对它的
滞后值以及随机误差项的现值和滞后值进行回归所
建立的模型。 ARIMA 模型适用于不是白噪声(均值
为0,方差为常数,协方差为0 的时间序列)的平稳
具有自相关性的时间序列,所以在建立模型拟合之
前,必须进行假设检验,判断是否为白噪声序列。
通过应用ARIMA 模型,可将表现为不同情感的
比例随时间推移而形成的数据序列视为一个随机序
列,用一定的数学模型来近似描述这个序列。由于在
面对热点话题时的情感比例是随机的且具有时间周
期性,即非平稳的时间序列,ARIMA 模型能比较有
效地处理自相关非平稳数据,这个模型一旦被识别后
就可以从时间序列的过去值及现在值来预测未来趋
势。但是该模型有一个缺陷,就是随着预测时间的延
长,预测误差会越来越大,而由于舆情的发展从开始
到衰退时间周期不长,所以ARIMA 模型有较好的拟
合效果。
以现有微博热点话题为例,比如明星出轨事件,
可以拟合出相近的时间序列,这样在以后出现类似
事件时,可以在事件爆发初期进行舆情监控、预测
每天发展变化的目的,以便引导人们形成正确的舆
论氛围。在下文的数据分析中,选取陈赫出轨这个
事件为例,将两种性别的情感比例设为因变量,以
时间为自变量,建立时间序列模型,并将非平稳序
列转化为平稳序列,观测不同性别的人在事件爆发
期、成长期、波动期以及衰退期的情感比例
图1 本文的主要研究步骤
变化,比较男女在不同阶段的情感倾向的差异,并探究产生这种差异的原因。
3 数据处理
3.1 数据采集
本文采用网络爬虫工具-火车采集器(LocoySpider)结合人工分析的方式来获取数据。
LocoySpider作为一款商用爬虫软件,通过指定匹配规则,采集到浏览器能看到的结构化的内容。
笔者于2014-2015 年期间采用LocoySpider 对新浪微博娱乐话题和民生话题的微博评论进行了采集。主要采集有#陈赫出轨#、#柯震东#作为娱乐话题,#北京APEC会议#、#优酷抄袭#、#柴静雾霾调查#作为民生话题,这四件事件转发率高,网民反响剧烈,同时也能代表近年来国内频发的# 出轨#、##、#中国梦#、#版权#、#雾霾#等舆论热点,具有一定代表性。
本次研究通过去重,共得新浪微博评论文本192711条。为了使数据更精准有效,数据采集使用了分时段采集的方式,以天为单位对对数据进行采集和分析,统计正负情感值以及高频词。
3.2 分词与词性标注
微博语料与传统语料相比具有很多独有的特点,例如:平均句子长度更短;正负情感比例发布比较均匀之外;微博语料语言口语化,表达形式丰富,规范性差,网络用语等较多。因此,对中文微博短文本进行情感分析之前,需要对其先进行分词、词性标注等预处理工作。
对中文微博短文本进行情感分析之前,需要对其先进行分词、词性标注等预处理工作。本文所使用的分词方法是由中科院开发的ICTCLAS。
基于微博短文本语料的特点,如果简单的使用传统的分词技术来对微博短文本进行处理,通常效果不会十分理想。因此,为了使分词更加准确,更加适应微博的语言特征,我们采取了编撰词典的方法来进行存储并处理,在原分词软件的基础之上制作了语料词典,加入额外的词库增强其适应性。例如,对于#陈赫出轨#事件的分词过程中,新增了“跑男”等新词。
而词性标注则是在分词的基础上,通过词性分析为每个词标注其词性。使用ICTCLAS 进行实验的示例如图2 所示。
图2 分词与词性标注图示
3.3 数据清洗
为提高研究分析的准确率,笔者分别进行交互
信息过滤、去停用词的数据清洗方法以实现情感极
性判断、词频统计的数据准备。
a.交互信息过滤:
微博用户在进行互动时,产生了两类交互信
息,对微博短文本情感分析会产生一定的干扰。
第一类是转发和通知引起的信息,如类似“哈
哈说得对!//@关爱八卦成长协会://@进击的啊啊
呵”这种转发类型的微博,其中“//@XXX”作为用
户昵称有可能会对情感分析造成一定的干扰。
第二类是热门话题的干扰,如:“#陈赫出轨#
出不出轨跟你们有什么关系谁没有自己的生活
无法理解[思考]”其中“#XXX#”只是微博中的话
题,微博内容包含该话题并不代表博主赞同该话题
的意见,“#XXX#”在这里是相当于名词,也应该过
滤掉。本文利用正则表达式制定了过滤规则,在数
据库中对这两类信息进行了过滤。
b.去停用词: 本文的研究中通过使用停用词表,进行字
符匹
配,对数据库中的停用词进行数据清洗。此操作有助于提高词频统计的准确率。
3.4  情感极性判断与词频统计
在情感分析中,一定的考虑情感句中情感词所
表达的情感,就可以确定短文本的情感极性和倾
向。而词频(TF),是某一个给定的词语在文本中
出现的次数。通过进行词频统计,可以确定文本中
的关键词,判断评论者关注点的侧重。本文使用Semantria 对微博文本进行情感极性的分析和词频
统计。Semantria 是一种通过API 和Excel 插件实
现功能的情感分析工具,通过情感词匹配对文本进
行情感值等的数据分析。笔者通过布尔模型分别统
计了不同话题、不同性别的正、负、中频数,并分
别统计了男女评论文本中的高频词,用于之后的数
据分析。
实验过程中,由于中文语句的复杂性,及软件
词库规模的限制,对于Semantria 无法识别或是判
断错误的词,我们通过修改情感词典的方式进行改 进,如“离婚”一词在#陈赫出轨#中仅代表事件的 发展情况,在分析中被误判为负情感,通过修改 Semantria 情感词典可实现纠正。情感极性判断结 果如图 3 所示:
方检验,提出原假设H0:情感类型与性别无关,通
过验证显著性水平来判断性别与情感极性的相关 性。
以#柴静雾霾调查#为例,SPSS 分析结果如下:
表 1 性别* 情感类型 交叉制表
图 3 情感极性判断结果
笔者遵循以上前期工作的步骤,针对本文所选 取的五个热门话题,对每条话题下的所有新浪微博
评论进行了以天为单位的采集,通过去重、文本交 互信息过滤等数据清洗操作,选取以 500 条评论为 单位的样本,进行情感极性判断与人工判断结论的 对比,已将此实验的情感分析正确率提升为 74.8%,
由此判定此正确率可以用于研究分析。
4 数据分析
4.1  数据整理
采集 2014-2015 年期间有代表性、公众关注度 高的 5 个微博热点话题,每个话题从事件发生开始, 经处理后保留有效评论总计 192711 条。 经过上文
实验处理后,得出每条评论的情感态
度,下表为每个话题下男女的情感态度频数。
平为0.00<0.05,所以拒绝H0假设,即性别与情感类 型有关。
根据统计结果,使用与上述柴静雾霾调查相同 的方法进行其他四个热点事件的统计分析,分别对 陈赫出轨、北京APEC 会议、柯震东、及优酷抄
袭进行假设H0A
H0B H0C H0D ,建立2*3 列联表,并
进行假设检验。根据相关性检验结果,其余四个话 题下,观测的显著性水平均为0.00<0.05,所以拒绝 H0A H0B H0C H0D 假设。即在四个热点事件中,性别 均与情感类型有关。
4.3  时间序列预测
为了达到舆情监控、预测的目的,将所收集的 数据进行时间序列建模,选取陈赫出轨这个男女差 异较大并且具有典型时间因素影响的事件进行分 析,以下图4、图5分别为男性和女性正、负、中性 三种情感比例的时间序列图,纵轴代表各情感值的 比例,横轴为时间,由于该话题在19天评论人数明 显下降,所以选取前22天进行分析。
4.2  相关性分析
为了证明不同性别的人在同一事件上存在 着情感差异,对性别这个因素和情感极性的正负进 行了相关性分析,从而衡量两个变量的相关密切程 度。笔者通过SPSS 软件,分别对五个事件进行了卡
图 4-男
图 5-女
结合Web2.0 环境下网络舆情的特点,参考《突发事件网络舆情的演变机制及其情感性分析研究》,将网络舆情的传播过程分为潜伏、成长、爆发、衰退、波动和死亡6 个阶段。如图:
图 6 舆情传播过程
潜伏期与成长期时,舆情危机的起因发生并得到消息传播者的发布;爆发期时,事件会被媒体、意见领袖进一步放大。若相关部门或人员在爆发期时能及时控制住舆情,疏导民众的情绪,便会使事件进入衰退期;但在衰退期的过程中,若事态有了新的变化,这时便会产生新的波动进入波动期。当网民、媒体等舆情主体积极性降低时,事件关注度便会逐渐衰减,最后成为过去,进入死亡期。由陈赫出轨事件的男性情感极性变化图示结合上图所示舆论演变模型可看出,由于第16天意见领袖的出现,舆论发展进入波动期。
为了成功捕捉数据的随“时间”变化的、“动态”的、“整体”的统计规律。因此,对陈赫出轨事件,每天的情感值比例进行时间序列分析,为了建立时间序列模型,首先要对三组序列进行相关分析,运用SPSS进行自相关分析,男性变化的正情感一组的组序列结果如下。
表 3 正情感自相关
同理得出负情感与中性情感的自相关图。通过观测标准误差值大于 0.05,接受不是白噪声的假设,加上Box-ljung Statistic 的相伴概率都大于0.05,可以说三组时间序列不是白噪声,及其期望与方差不为常数,采用非平稳时间序列的建模方法,即可以建立自回归滑动平均ARIMA 模型。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值,即能够预测未来对于陈赫出轨这件事人们所表现出的情感态度比例。
得到输出结果后,发现情感值为中性的人数R方最高,即预测该数值的准确度最高,达84.8%,并且从上表可以看出标准中性情感时间序列的BIC值为7.596小于其余两组,拟合优度最高。下图为男性情感变化拟合结果。
图 7 男性情感变化拟合结果
拟合之后,正向情感人数为76
、84、80、94、101、119、67,负向情感人数为388、381、362、313、260、189、135,中性情感人数为267、281、289、280、255、202、133。从图形和数据都可以
观察出,负向情感的比例有所下降,而正向情感比例有所上升,中性情感基本维持不变。这意味着男性对于陈赫出轨这件事情的谴责与批评随着时间的推移逐渐减少,而宽容与理解的比例逐渐增多,并且有相当一部分人始终保持着比较中性的态度。
同理,女性通过计算,也建立了自回归滑动平