李华;朱荔
【摘 要】从微博中准确高效地挖掘出正在发生的热点事件是近年来研究的热点。通过综合考虑微博用户的粉丝数量和微博本身的转发、评论次数计算每条微博的影响力,从而提出一种基于影响力的微博新兴热点事件检测方法 IEED(Influence-Based Emerging Hotspot Event Detection)。该方法运用层次聚类将微博帖子聚类为事件集,并提取出事件中的关键词构成事件摘要。通过运用现实生活中的新浪微博数据作为实验数据集来测试所提出的方法,实验结果证明,基于影响力的微博新兴热点事件检测方法(IEED)能在早期高效地检测出微博中的新兴热点事件,具备一定的应用价值。%To accurately and efficiently mine the hot events on occurrence from microblogs is the focus of research in recent years.In this paper we propose an influence-based emerging hot events detection (IEED)approach by comprehensively considering the fans number of microblogging users and the influence of each microblog calculated from the number of its forwarding and comments.The approach uses hierarchical clustering to cluster the microblogging messages into event set,and extra
cts the keywords in the events to form event abstracts. We tested the approach presented in the paper by using the experimental dataset set up from Sina microblogging data in real life,the experimental result proved that the influence-based IEED could efficiently detect the emerging hot events in microblogs at early time,and had certain applied value.
【期刊名称】《计算机应用与软件》
【年(卷),期】2016(033)005
【总页数】5页(P98-101,165)
【关键词】新兴事件检测;微博影响力;聚类
【作 者】杭州哪里好玩李华;朱荔双鱼座的性格
【作者单位】重庆大学计算机学院 重庆 400044;重庆大学计算机学院 重庆 400044
【正文语种】中 文
abs灯亮了是什么原因【中图分类】TP391
微博作为一个新兴的社交媒体服务,是当前最流行的网络社交应用之一。国外最具代表性的微博平台是Twitter,在中国最具代表性的则是新浪微博(现已改名为微博),新浪微博全球注册用户已经超过6亿。
微博具有支持多平台终端的特点,人们可以随时随地发布自己的所见所闻,但是发布的信息不能超过140个字符,这使得微博产生大量贴近现实生活的数据。然而由于微博数据量十分巨大,用户无法通过阅读大量微博获取自己感兴趣的热点事件,因此对微博的海量信息进行挖掘,发现微博中的新兴热点事件能有效地帮助用户到感兴趣的话题。 本文主要的研究方向是新兴热点事件的检测,定义新兴热点事件为何时(when)、何地(where)正在或者即将要发生的事件(what)。2022年端午节高速免费几天
新兴热点事件需要在正确的时间检测出来,特别是某些事件,如自然灾害、传染疾病和危害巨大的袭击等事件如果在早期就能检测出来能有效地帮助政府或者个人及时预防和处理相关事件,从而尽量减少不必要的伤害和损失。针对上述问题本文提出一种基于影响力的微博新兴热点事件检测算法IEED。该算法运用微博帖子的转发、评论次数和用户的粉丝数
量计算微博的影响力,同时运用不同时间段发布的微博数量对事件的新兴程度进行界定,综合考虑进行新兴热点事件检测。
传统的文本话题发现方法是将文本看作向量,然后运用聚类的方法出热点话题。当前多数事件检测研究工作都是针对文本新闻和网页新闻的,但是随着微博用户的迅速增长,微博文本的相关研究已经成为热点,针对微博事件检测的研究,国内外也已经取得了很多成果。
不管是针对新闻文本还是微博文本,事件检测的相关工作都主要是TDT(topic detection and tracking)[1]。微博事件检测方面国内外已有大量的研究。Sayyadi等人在文献[2]中提出了一种构造关键词图(KeyGraph)检测博客中事件的算法,算法检测效果显著,但是算法检测到的事件数量取决于阈值的设定,而且没有对得到的结果进行评估。Ozdikis等人在文献[3]中提出一种Twitter下基于主题标签(Hashtag)聚类的事件检测方法,但是在该方法中每个tweet只用一个主题标签标记,这样会忽略一些重要的事件。童薇等人在文献[8]中提出一种基于微博数据文本特征的事件检测算法(EMD),但是该算法没有增量地对事件进行检测。李凤岭等人在文献[9]中研究了基于LDA 模型的微博话题发现技术;
郭跇秀等人综合考虑用户影响力和微博本身的文本特征和传播特征提出一种微博突发事件检测方法[11]。
在微博新兴标题和事件检测方面,国内外研究都很稀少。Cataldi等人在文献[4]中提出了一种检测新兴标题的方法,但是该方法需要运用到用户权限计算权值,在现实中用户权限是很难收集全的。Alvanaki等人提出一种跟踪标签关联项的新兴标题检测方法,开始的种子标签从当前滑动窗口选择获得[5]。Unankard等人在文献[6]中提出了一种基于位置信息的新兴热点事件检测方法,该方法检测效果很好,但是需要用到发布微博的位置信息,用户有可能不愿意透露自己的位置信息。
与上述方法不同,本文综合考虑微博的转发、评论次数及发布微博用户的粉丝数量,得到微博帖子的影响力,并运用微博帖子的影响力计算事件的热点值。同时考虑事件各个时间段包含帖子的数量对事件新兴性进行评定,提出一种基于影响力的微博新兴热点事件检测算法IEED。运用此算法能在早期有效的从微博帖子中检测出新兴热点事件。在进行事件摘要时提取出与主题最相关的关键词(what、where、who)、事件最早发帖时间(when),总结出事件摘要。
本文的IEED算法主要分为三个步骤:微博数据预处理、微博文本聚类和新兴热点事件检测,算法的详细结构如图1所示。
2.1 微博文本预处理
微博文本通常简短且含有很多噪声数据,为了加快算法处理的效率和提高检测的精确度,在进行新兴热点事件检测之前需要对微博文本进行预处理,去除噪声数据,保留高质量的微博数据。微博数据主要由用户ID、用户名、发布时间、发布地址、内容、粉丝数量、转发次数、评论次数等组成,表1详细展示了新浪微博数据的字段。其中F表示该用户的粉丝数量(关注他的用户总数),R和C分别表示该条微博的转发、评论次数。
在微博帖子中提取出微博内容、发布时间、转发次数、评论次数和对应发布该微博用户的粉丝数量。对于提取出的微博内容去除hashtag、内嵌链接URL、表情符号、@后的用户名和转发标记”RT”,采用中科院提供的中文分词软件ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System)[12]对微博内容进行分词,分词得到的结果去除中英文的停顿词(stopwords),过滤掉虚词和停用的词。最后去除剩余关键词少于三个的微博。预处理过后的微博可以表示为Di={wi,1,wi,2,…,
有关教师节的名言Ri,Ci,Fu}。
2.2 微博文本聚类
本文面对的问题是如何从给定的微博帖子中识别出事件。现实中一个事件往往对应多条微博,而在大多数情况下每条微博只讨论了一个事件,本文只考虑每条微博只讨论一个事件的情况。微博中讨论的事件的数量非常大,不知道到底有多少事件正在被讨论,因此本文运用层次聚类自动将微博帖子聚类为事件集。同时为了处理大量流入的微博文本,运用滑动窗口来跟踪控制微博文本流入系统,窗口的大小可以设定为文本的具体数量或者一定的时间段。本文运用时间段来定义窗口大小,如5小时。1天等,时间段的大小可以随着实际情况做出改变。此外,以前时间段的聚类事件会作为历史聚类记录在系统中,因为后面计算事件的新兴评分时会用到。
本文选用增强规范化词频[14]计算词汇在每个微博帖子中的权重,该方法能降低微博长度对权重计算的干扰,具体计算公式如下:
其中,wi,n表示微博帖子Di中词n的权重,fi,n是词n在Di中出现的频率,是在Di中出现频率最大的词汇的频率。
微博文本具有内容较短的特点,预处理后得到的词汇较少,本文选用余弦相似性函数计算已经存在的聚类和新进入系统微博帖子间的相似性,计算公式如下:
其中,Di是微博帖子i,C是聚类的中心点,wi,j是词汇j在Di中的权重。
本文选用引导者-追随者聚类[7]算法,当进入系统的微博帖子的时间跨度大于滑动窗口大小时,系统开始聚类。当新的微博帖子进入系统时,系统会计算它与已存在聚类之间的相似度,如果相似度大于预先设定的阈值时,记录下来,最后把微博加入与其相似度最大的聚类中(相似度大于阈值的聚类);如果微博文本和已存在的所有聚类的相似度都小于阈值,则建立一个新的聚类,将微博加入。计算微博帖子和已存在聚类的相似度时,每个聚类都用质心替代(质心的凝聚力很强,能代表该聚类),这有利于提高系统聚类的速度和效率。最后是聚类间的合并,合并最相似的聚类,计算聚类间的余玄相似性,如果相似度大于阈值,则合并两个聚类。
发布评论