信息与电脑 | 社交营销 | |
2015 年第 21 期 | China Computer&Communication | |
本文来源于《信息与电脑》杂志社,投稿邮箱:XXYDN1989@163
袁 媛
(杭州电子科技大学管理学院,浙江 杭州 310018)
随着社交媒体的快速发展及应用,如微博、Twitter 等,产生了大量的评论信息,由于微博属于短文本,因此
对微博的情感分析来源于文本情感分析。基于此,在介绍文本情感分析研究现状的基础上再介绍微博情感分析
的研究现状。 关键词:微博;情感分析;情感词典
随着互联网的快速发展,尤其是微博、等新社交
网络的兴起,网络用户每天都会发布并传播高达上亿的信
息。这些海量的文本信息中,有很大一部分是表达用户观
点倾向和情感倾向,这些情感文本信息是非常宝贵的意见
资源,包含着人们对社会各种现象的不同观点和立场,话
题涉及政治、经济、军事、娱乐、生活等领域。个人和组
织越来越的把情感观点信息用于决策,因此使用计算机技
术自动地对其分析处理,在选举、销量预测、精准营销等
领域有着广泛的应用,情感分析技术应运而生。
1 文本情感分析研究综述
文本情感分析研究始于 20 世纪 90 年代。情感分析 主要分为两类,一是基于情感词典的文本情感分类,二 是基于机器学习的文本情感分类。
在基于情感词典的文本情感分类相关研究中,主要 有以下成果。Riloff 和 Shepherd 建立一个基于语料数据 的语义分析系统,该系统的输入为某个类别的种子词集 合和一个有代表性的文本语料,系统输出为和该类别相 关的单词排序列表。Hatzivassiloglou 和 Mckeown 在大 规模语料的基础上使用对数线性回归模型来验证连词对 形容词正面或负面的语义倾向的影响,结果发现每个连 词被认为是独立的情况下准确率达到 82%。徐琳宏和 林鸿飞根据表达情感复杂度将句子划分为单情感词的简 单句、多情感词的简单句和多情感词的复杂句;然后从 句子的词汇和结构两方面考虑提取影响语句的情感彩
的 9 个语义特征,并在已有的情感词汇本体和句子级关 键情感词汇识别的基础上将语义特征加入到条件随机域 中,进而进行文章级的情感分析。
使用基于学习进行文本情感分析时,比较重用的机 器学习方法主要有:支持向量机(SVM)、K 最近邻 (KNN)和最大熵(ME)。如 Pang 和 Lee 等人对文 本进行情感分类,分为正面情感和负面情感。并对比了
Naïve Bayes、ME 和 SVM 这三种机器学习算法对电影 评论的分类效果,结果发现 SVM 的分类效果最好,并 且对不同的输入特征,准确率大部分在 81% ~ 83%。 Whitelaw 和Garg 等人提出文本中抽取和分析评价词组, 如“very good”和“not terribly funny”,来进行情感 分析。首先使用半自动的方法来建立评价形容词和修饰 词词组。对电影评论进行分类,然后将标准词袋特征和 评价词组作为支持向量机的特征输入进行情感分类模型 的训练。最后在电影评论语料上进行测试,发现准确率 高达 90.2%。Boiy 和 Moens 使用机器学习的方法对三 种语言(英文、荷兰语和法语)的博客、评论和论坛文 本进行情感三分类。实验结果表明,三类语言分类的准 确率依次为 83%、70% 和 68%。唐慧丰和谭松波等人以 n-gram、名词、形容词和副词作为不同的文本表示特征, 以互信息、信息增益、CHI 统计量和文档频率作为不 同的特征选择方法,以中心向量法、KNN、Winnow、 Naïve Bayes 和 SVM 作为不同的文本分类方法,在不同 的特征数量和不同规模的训练集情况下对情感分类结果
(下转第 55 页)
作者简介:袁媛(1990-),女,安徽宿州人,硕士研究生。研究方向:信息管理与信息系统。
— 49 —
信息与电脑 | 云计算 | |
2015 年第 21 期 | China Computer&Communication | |
上模具质量和寿命除上述原因外,还与平时维护保养和
严格按照成型产品的工艺有关。为此海尔模具公司应用
云计算设计了一个监控器安装在模具内,它可以正确、
随时记录在模具在使用时的全过程,比飞机黑匣子功能
还齐备,没有储备信息的时间限制,这样既可保证模具
正确地使用,也可减少不必要的纠纷。
5 结 语
云制造顺应“工业 4.0”的发展需求,将对模具行 业发挥巨大的作用,促进传统模具行业向网络化、敏捷 化和服务化的方向稳步前进。
参考文献
[1] 李伯虎 , 张霖 . 云制造—面向服务的网络化制造
(上接第 49 页)
进行了对比,发现采用 Bigrams 特征表示方法、信息增 益特征选择方法和 SVM 分类方法获得情感分类效果最 好。夏火松和陶敏等人在文本预处理的过程中使用四种 不同的停用词表,使用 TF-IDF 权重计算方法进行特征 选择,采用基于 RBF 核函数的 SVM 对携程网上的 4000 个酒店客户评论情感文本进行分类,结果发现不同的停 用词表对情感分类的准确率不同。
2 微博情感分析研究综述
由于国内外主流社交媒体的不同,国外基于微博的 情感分析主要针对 Twitter,而国内则主要是新浪微博。 在国外,如 Go 和 Bhayani 等人提出一个距离监督学习算 法来实现对 Twitter 进行自动的情感分类。该方法在用户 购买前获得某一产品的公众情感倾向非常有用,即用户 提供一个检索词,该方法能够自动实现其情感归属。首 先选择带有表情符号的 tweets 作为训练集,使用 Naïve Bayes、ME 和 SVM 对数据进行分类,实验结果表明三种 分类方法均获得了 80% 以上的准确率。Barbosa 和 Feng 提出了两阶段情感分类方法。首先对 Twitter 进行主客观 分类,然后进一步将主观 Twitter 消息分为正面和负面。
Davidov 和 Tsur 等人把 50 个 Tiwtter 标签和 15 个表情符 号作为情感标签,提出了一个有监督的情感分类框架来 实现微博情感分类。Jiang 和 Yu 等人对面向主题的微博 情感分类进行研究。提出使用领域特征对微博情感分类
新模式 [J]. 计算机集成制造系统 ,2010,16(1):1-6.
[2] 李伯虎 , 张霖 , 任磊 , 等 . 再论云制造计算机集 成制造系统 [J].2011,17(3):449-457.
[3] 王云 . 面向云制造的制造执行系统优化技术及 其在机床生产企业中的应用 [D]. 杭州:浙江大学博士学 位论文 ,2011:12.
[4] 尹超 , 黄必清 . 中小企业云制造服务平台共性关 键技术体系 [J]. 计算机集成制造系统 ,2011,17(3): 495-503.
[5] 邓朝晖 , 刘伟 . 基于云计算的智能磨削云平台的 研究与应用 [J]. 中国机械工程 ,2012,23(1):65-69.
[6] 吴晓晓 , 石胜友 . 航天云制造服务应用模式研究
[J]. 计算机集成制造系统 ,2012,18(7):1595-1603.
[7] 孟祥旭 , 刘士军 , 武蕾 . 等云制造模式与支撑技 术 [J]. 山东大学学报 ,2011,41(5飞机黑匣子能记录多项关键数据):13-20.
方法进行改善,结果发现改进的方法对分类效果有明显
的提升。在国内,谢丽星等提出了基于层次结构的多策
略中文微博情感分析方法,并和表情符号规则方法、情 感词典的规则方法进行了对比,发现基于 SVM 的层次结 构多策略方法的分类效果最好;并且对层次结构的多策 略方法的特征选择进行了分析,实现结果表明使用主题 无关的特征时获得的准确率为 66.65%,而引入主题相关 的特征后,准确率提升至 67.28%。
3 结 语
本文对情感分析的国内外研究进行了综述,重点对
文本情感分析中的基于情感词典的情感分析方法和基于
机器学习的分类方法进行了介绍。由于有随着社交媒体 的快速发展及应用,如微博、Twitter 等,产生了大量的 评论信息,微博属于短文本,因此本文除了介绍文本情 感分析进行了介绍,还介绍了短文的情感分析,特别是 微博短文本情感分析。
参考文献
[1]Hatzivassiloglou V, Mckeown K. Predicting the Semantic Orientation of Adjectives[J].Proceedings of
Acl,1997:174-181.
[2] 徐琳宏 , 林鸿飞 . 基于语义特征和本体的语篇情 感计算 [J]. 计算机研究与发展 ,2007(2):356-360.
— 55 —
发布评论