基于数据挖掘对垃圾短信识别模型的研究与应用
摘要:本文基于运营商现有的平台,分析用户的通信行为,结合数据挖掘技术,提出一个新的垃圾短信识别模型。结合某省运营商短信运营数据对垃圾短信识别模型进行了实证研究,并从命中率和波动度两方面对模型进行验证,取得较好的效果。
关键词:垃圾短信过滤技术;相关性分析;特征选择;logistic回归模型
中图分类号:tn929.53文献标识码:a文章编号:1001-828x(2011)08-0180-01
绪言
大众 旅行车
目前通信行业所采用的垃圾短信过滤的方法主要[1]有:第一,黑名单和白名单监控技术,但是短信中心对黑白名单处理数量有上限要求;第二,基于关键字规则的过滤技术,但是这种技术不能灵活识别和更新关键字;第三,基于内容的过滤技术,可分为基于规则的过滤和基于概率统计的过滤,有学者[2][3]提从词频的角度提出了基于贝叶斯分类器的垃圾短信过滤系统,还有基于文本分类的垃圾短信过滤方法。但是随着垃圾短信治理活动的逐步开展,垃圾短信的手段越来越隐蔽了,如一人多号、以谐音字代替敏感字眼、以字符将敏感字眼隔开等。
这给垃圾短信治理工作带来了重重困难,优化拦截识别模型已迫在眉睫。
因此,本文提出融入客户行为研究和数据建模建立垃圾短信识别模型来取代目前的垃圾短信过滤技术,提高判断用户在发送垃圾短信的准确度和效率。
一、垃圾短信识别模型李红涛的个人资料
写小伙伴的作文沈梦辰最露的照1.垃圾短信识别模型简介
马龙个人资料垃圾短信识别模型是通过对用户的通信行为,如用户的消费信息、交往圈、话单信息等的分析,建立logistic回归模型预测其未来成为发送垃圾短信的用户的概率的模型。
2.建模指标的抽取
安以轩家庭背景从黑名单和白名单中随机抽取一部分数据,形成建模样本组。在选定样本后,从数据仓库的全部客户数据中提取与该客户相关的信息结合垃圾短信数据形成宽表[5]。并采用统计学的方法对指标进行分析。本文中对垃圾短信识别模型的基础变量的处理主要采用相关性分析[6]与特征选择分析[7]。