基于数据挖掘的微博人气用户特征分析研究
作者:王静 黄地龙
来源:《数字通信》2013年第01
        要:通过网络爬虫从新浪微博站点上爬取人气百强用户信息数据,利用Clementine软件的C5.0决策树模型对这些数据进行分析。结果表明:人气用户中,娱乐明星占据着大部分,并且微博中的名人具有关注数小,被关注数大的特征。名人效应非常显著,非著名话唠想要引起大家的观注依然困难。
        关键词:微博;决策树;用户分析;名人效应
        中国分类号:TP39 文献标识码 A
        文章编号10053824201301001702
        0
        微博在中国开始以不可思议的速度流行起来,并在人们的生活中扮演着越来越重要的角,
它逐渐地改变着人们的生活、思想、行为以及我们的社会文化。针对这些变化,越来越多的专家学者将目光转向微博,开始对其特点、传播模式以及用户展开分析研究。
        目前,新浪微博用户数已超过1亿。仅仅两年时间,新浪微博就为新浪生下了一个价值几十亿美金的金蛋。那么新浪微博的用户包括哪些人?他们当中的人气用户都是来自哪些行业?他们的空间分布又有什么特征?这些人通过微博主要是为了了解信息,还是朋友交流?为什么他们会受到这么多的关注?给我们的社会带来什么启示?
        本文以新浪微博为研究对象,提取前100名人气用户数据作为分析数据,通过分析分类,挖掘用户行为特征、空间分布以及圈层特征等,出这些问题的答案。了解微博在社会中的作用,了解微博人的真实想法和思想认识,将有助于社会和相关部门更好地把控微博的舆论方向,对建设和谐社会有着积极的意义[15]
        1 研究设计
        1.1 样本来源
        研究所需的样本数据利用爬虫工具通过微博站点开放的API获取。获取的微博人气用户
数据信息主要包括:昵称、性别、地址、描述、被关注数、关注数以及微文数等属性,并以这些数据作为用户特征分析挖掘的基础。
        1.2 研究方法和思路
        利用C5.0算法,根据用户的名人标识以及其他用户信息,分析名人的用户特征。C5.0算法是决策树模型的经典算法之一,它的基本思想是利用信息论原理对大量样本的属性进行分析和归纳而产生树的结构或规则,其目的是使系统的熵最小,以提高算法的运算速度和精确度[67]。主要包括2个阶段:1)拆分阶段。根据能够带来最大信息增益的字段对样本进行拆分,再根据另一个字段进行拆分,直到样本子集不能拆分为止。2)修剪阶段。重新检验最低层次的拆分,对模型值没有显著贡献的样本子集进行修剪。
        2 实证研究
        首先,利用网络爬虫通过新浪微博的API成功从站点上爬取了用户信息数据及关系数据;然后,利用Clementine软件的C5.0决策树模型对这些数据进行分析。
        2.1 研究结果
        微博中的明星用户通过微博发布简单的信息,既能满足粉丝对明星生活的好奇心理,还能为明星自身做宣传,所以娱乐明星占据微博百强用户的大部分,即占到总人数的71%。而通过对百强用户的空间特征分类研究显示,其中的80%以上分布在北京、台湾和香港三地。
        此外,分析结果还显示名人存在一个特征,即关注数小于500,被关注数大于10 000,而微文数却不及被关注数的千分之一。这说明微博中的名人通过自身的影响力便能吸引大量粉丝关注,而无需关注他人或发布微博,这种现象即为名人效应
        2.2 结果分析
        从以上细分结果不难发现,虽然微博逐渐平民化和草根化,但是单单从人气用户分析,北京和香港等大城市用户居多,这主要是因为明星名人大多聚集在这些地域,而圈层分析结果显示明星名人在人气用户中占有很大部分,因此名人在微博中的影响力绝对不容忽视。但是另一个问题出现在我们面前,那就是从其他文献的研究调查中,我们发现微博的用户分布非常广泛,天南海北,圈层更是涵盖了学生、白领、教师、自由职业等。其中,微博用户中,企业的普通员工和学生的比例分别达到29%17%,为什么我们的人气用户中这些行业的用户基本为0呢?
        原因分析:一方面,因为在新浪微博用户中存在着相当数量的沉默用户和浏览用户,这些用户的活跃度不高,很少有发布/转发这种主动的行为,但是更重要的原因并不在此。
        众所周知,从20059月新浪开通博客频道起,就大张旗鼓地邀请各路名人进行实名注册,于是随着博客在社会上的流行,新浪网的博客频道顿时变得门庭若市,点击率也日攀新高。在这种形式下,博客变得精英化,脱离草根阶层,成为正式媒体的倾向自然不可避免。而这一现象也同样延伸到了新浪微博当中,并有越演越烈的趋势。微博出现时曾有人人都是记者美誉,但是它在话语权的转移上却并不如我们所想象的那般乐观。非著名话唠得到的关注依然寥寥无几,声音能被听到并放大的仍然是那些已经在现实生活中积累了名气、财富、社会地位的人,知识沟效应在微博里有越演越烈的趋势。
        3 总结与展望
        微博尽管出现的时间很短,但是已经证明了他所具有的影响力和扩张力。微博以全面的功能,以及渗入了多媒体等丰富多彩的元素,使得用户能够更好地发布精彩讯息或是记录心情体验。
        通过本文的研究,微博的存在意义以及其对社会文化的启示得到了进一步的阐释。微博的人气用户调查结果表明,微博中名人效应依然存在并且非常显著,非著名话唠想要引起大家的关注依然困难。
        展望未来,微博对未来的影响可以用一句话来总结:微博改变世界!微博无论是其传播速度、参与人员的范围都是其他媒体形式望尘莫及的,从某种程度上影响了政府和社会的做法。但是也正是因为这个原因,个别别有用心的势力也渐渐混入到微博用户中,伺机煽动挑拨网民们的神经。微博的这种影响力成为一把双刃剑,如何分辨微博信息的真伪,是微博用户们在今后使用过程中应该思考的问题。
        对于微博用户的研究以及微博对现代社会的影响的分析,本文还存在着很多不足。例如,微博用户各个圈层的调查研究,如何引导微博中正确的舆论方向,如何避免微博被不法分子利用等,这些问题需要后续深入研究和讨论,以使微博在未来给人们、给社会带来更多的启示和意义。参考文献:
        [1] 何黎,何跃,霍叶青.微博用户特征分析和核心用户挖掘[J].信息系统,20113411):121125.
        [2] 平亮,宗利永.基于社会网络中心性分析的微博信息传播研究——Sina微博为例[J].图书情报知识,20106):9297.
        [3] 王晓光.微博客用户行为特征与关系特征实证分析——新浪微博为例[J].竞争情报,20105414):6670.
        [4] 廉捷,周欣,曹伟,等.新浪微博数据挖掘方案[J].清华大学学报:自然科学版,20115110):13001305.
        [5] 周立柱,林玲.聚焦爬虫技术研究综述[J].计算机应用,2005259):19651969.
        [6] 张彦超,刘云.基于自动生成模板的Web信息抽取技术研究[J].北京交通大学学报,2009335): 4045.
        [7] 欧健文,董守斌.模板化网页主题信息的提取方法[J].清华大学学报:自然科学版,200545王喜微博(09):17431747.