极性分类——⽹络舆情正负⾯信息识别的⽅法随着Web2.0时代的到来,以及微博、SNS媒体的兴起,互联⽹上个⼈发布的信息迅速增多,企业和政府前所未有的与⽤户和公众如此之近。把握企业和政府前途的决策之匙不仅握在管理者决策者⼿中,也同时握在⽤户和公众⼿中。如何从互联⽹获取的海量信息中提取⽤户或者公众的情感倾向、以及针对某事物的正负⾯评论,可以为企业把握⽤户的消费态度,为政府把脉公众的情绪提供重要的依据,促成做出更加正确的决策。
⾯对众多不同消费者,不同渠道发布的⼤量评价、留⾔、微博等信息,对数以亿计海量信息进⾏处理的过程显然是⼈⼯⽆法完成的,近些年,国际国内都有专业研究机构对这⼀问题进⾏研究开发,并取得了⼀些进展:计算机系统能够准确抓取这些不同来源的信息,,并企图了解⽤户的真实意图,得出正负⾯评价。那么计算机系统⼜是如何对各种各样的信息进⾏“理解”,“分析”,并准确分辨出哪些是正⾯评价,哪些是负⾯评价呢?
对此,《⽹络舆情正负⾯信息识别的⽅法》系列⽂章将为您答疑解惑。通过这⼀系列稿件,结合本⼈在优捷信达科技研究⼯作,将为您详细介绍计算机对⾃然语⾔的分析原理,以及对情感分析中与舆情正负⾯密切相关的“极性分类”领域进⾏详细介绍,并介绍⽬前学术上流⾏的极性分类⽅式及其优缺点,展望正在研究的最新技术前沿,帮助您了解市场上流⾏的“舆情监测”,”信息监测“,“消费者调研”等等信息处理系统的⼯作原理。
联⽹上80%以上的信息是以⽂本⽅式呈现的,⽹上的⽤户评论尤其如此。这些信息就需要所谓的“⾃然语⾔处理技术”来进⾏处理。⽹络⽂本信息中包含了客观陈述和主观陈述,如果对主观陈述中所包含的情感进⾏分析,则是⾃然语⾔处理⽅⾯最活跃的⼀个研究⽅向:“情感分析SA(Sentiment Analysis)“,这⼀研究⽅向主要关注所处理的信息中的意见、情感和主观性。在各种情感分析中,对情感的正负⾯——也就是褒义、贬义进⾏分析判定,是⽬前为⽌情感分析⽅⾯最主要的任务,也叫做“极性分析”。极性分析可以被看作是这样⼀个任务:“对于给定的⼀段带有观点的评论性⽂本,标记出它是整体正⾯评价或者整体负⾯评价”。通俗来说也就是标记某⼀段评论性⽂字所代表的倾向性情感是正⾯还是负⾯,对所表达的主题是喜爱还是讨厌,是赞同还是反对等等。本⽂将详细描述极性分析的背景、过程和意义。
未识别的网络1.极性分类的背景
情感分析系统是⼀种具有情感分析功能的计算机软件系统,它能从微博短⽂、⽹页评论等⽂字中提取情感信息,让计算机⾃动分辨情感正负⾯,⾃动汇报给客户。例如,优捷信达科技对中海地产进⾏客户关系舆情监测⼯作时,需要及时准确地掌握获取中海业主的意见和建议,通过慧眼系统⾃动提取信息,分辨正负⾯,并汇报给中海地产,协助他们防患于未然,为业主提供更优质的服务。
为了实现上述系统,需要完成以下⼯作:需要对⽂章或者评论进⾏检测,分析出带有主观意见的段落
句⼦;对这个句⼦进⾏细分,提取主题、意见发起者、相关意见,并对这些意见进⾏正负⾯分析或者极性分类。
⾸先,需要让计算机系统分辨出哪些⽂件或⽂件的哪⼀部分能够表达真实的主观信息。这⼀具有挑战性的任务也被称为主观表述检测,⽬前这⼀任务已经得到很好的解决。
第⼆步,基于原始⽂本中提取的主观信息,将进⼀步提取其所表达的意见,确定有哪些内容,以及他们之间的关系:
要素⼀: 主题提取:提取带有评述性的观点,它表述的主题都有哪些⽅⾯。
要素⼆: 观点持有者识别:确定持有这些评述性的观点的⼈。
要素三: 陈述的选择:鉴别哪些是观点持有者发布的意见,然后去除其他⼈的陈述。
以上三个要素是为了让计算机准确地选择某⼀个⼈对某⼀个主题的观点。第四步是对这⼀观点进⾏正负⾯分析。
要素四:舆论分析:通过计算“理解”主观表述的倾向,即观点的正负⾯分析,包括如下⼏种分析⽅式。
1. 将舆论归⼊到情感极性中的正⾯或负⾯“,这个问题被称为极性分类。
2.“在正负⾯两个极端之间确定它的强度”,这个问题被称为序列回归。
3. 提取意见的同时也提取出现这个意见的原因。系统不仅可以分析“⽤户是否喜欢它/⽤户到底有多么强烈地喜欢它”,⽽且还能分
析“为什么我们的⽤户喜欢它”。
4. ⽂本分类的观点,有点像美国政治⼈⼠的政治⽴场:“⾃由”或“保守”。
由于篇幅所限,本⽂仅就“将舆论归⼊情感极性中的正⾯或负⾯”这⼀问题进⾏描述。
2. 极性分类过程
对背景所描述的极性分类过程进⾏总结,典型的极性分类过程如下:
图表 1 极性分类流程图
包括以下步骤:
第⼀步,特征提取⽅法。它将原始⽂档的主观态度转化为机器可以识别的符号化的句⼦或陈述。通俗来说就是通过计算机系统的设定,⽤某种⽅式对⽹络上的⽂字进⾏识别和提取具有正负⾯倾向性的内
容。这⼀步是极性分类效果好坏最关键的⼀步。近年来国际上有很多种⽅法来进⾏提取,都有各⾃的优缺点,在接下来的⽂章中将详细描述各种⽅法及其优缺点。⽬前优捷信达科技主要采⽤互信息、信息增益等技术,结合⾃⾝对舆情分析的把握,有效提⾼特征提取的完整性,准确率。
第⼆步,分类。当前主要运⽤标准的机器学习分类器,⽐如被⼴泛应⽤的⽀持向量机SVM(Support Vector Machines),对已经提取并数据化表⽰的特征向量进⾏正负⾯分类。简⾔之,就是将第⼀步提取出来的具有正负⾯倾向性的内容,通过计算⽅式进⾏⽐对和分类,确认出这段⽂章的情感倾向是正⾯的还是负⾯的。
第三步,输出报告。
3. 极性分类的意义
极性分类是情感分析中的主要的任务之⼀。现实世界有很多问题是可以⽤两极对⽴观点来评估的。⽐如,“喜欢”或者“不喜欢”某个产品,或者某篇⽂章是否对某⼀个话题有所帮助,等等。通过情感分析,我们就能更好地理解客户的⾏为和公众的意见,这对企业和政府了解公众真实及潜在意见来说⾮常关键。
极性分类具有巨⼤商业价值和公共服务价值。优捷信达科技对互联⽹海量⽹站、论坛、微博的监测,
可以帮助企业客户准确掌握互联⽹消费者对该企业及产品的正负⾯评价,在2012年初,优捷信达科技通过对电商⾏业微博舆情的情感正负⾯极性分析,准确地把握了知名电商的⼝碑词汇和量级。这类客户调查对企业⾄关重要,因为现有客户的正负⾯评论不仅可以帮助⼚家了解消费者意见加以改进,还可以极⼤地影响潜在客户的购买意向。⽽这么⼤量的调查如果是⼈为进⾏的话将⾮常费时费⼒,成本极⾼,情感分析技术特别是极性分类技术的产⽣,极好地满⾜了客户这⼀潜在的巨⼤需求。
通过本⽂简短的介绍,对⽹络舆情监测中正负⾯信息的识别有了⼀个整体性的描述。
发布评论