垃圾短信论文:基于支持向量机的垃圾短信过滤方法研究
林志玲假胸
【中文摘要】随着手机的普及使用,手机短信业务已经成为人们重要的信息交流方式之一。然而,随之而来的问题是垃圾短信大量泛滥,日益猖獗,严重干扰到人们的正常生活,同时也影响社会的稳定团结。如何从技术上对垃圾短信进行过滤拦截,制约垃圾短信的传播,已经成为亟待解决的现实问题。本文从短信文本内容角度出发,将垃圾短信过滤看作短信文本的两类识别问题(即识别短信是否属于垃圾短信的过程),结合短信的特点,引入支持向量机方法,提出了基于支持向量机的垃圾短信过滤方法。该方法依据短信内容作为出发点,利用支持向量机算法对短信文本进行分类识别,进而完成对垃圾短信的过滤。本文的主要工作包括:1.针对传统垃圾短信过滤方法存在的分类精度低,自适应能力差等缺陷,提出了基于支持向量机的短信分类方法,描述了实现的步骤,并对所涉及关键技术,包括特征降维方式,文本表示方法以及分类算法等,进行了深入研究,并通过实验确定适应于支持向量机短信分类的惩罚参数以及核函数。2.针对标准支持向量机方法在短信分类中存在的特征重复,噪声干扰等问题,提出了改进办法。该方法利用支持向量机对短信是否包含关键特征进行识别,将识别结果加入到原始特征空间,并进行重复特征及...
【英文摘要】With the popularity of cell phone use,the SMS has become the important way for peoples communication .However, a large number of spam messages have also appeared at the same time which badly affects not only the people’s normal life, but also the social stability and unity. How to filter spam messages technology on the block, which restricts the spread of spam messages has become an urgent and realistic issue.Combining with the characteristics of SMS and using the method of SVM; this article take
【关键词】垃圾短信 短信过滤 支持向量机 特征降维 核函数万圣节文案朋友圈
【英文关键词】spam messages SMS filter SVM feature reduction kernel function
【目录】基于支持向量机的垃圾短信过滤方法研究致谢4-5摘要5-6Abstract6-71 绪论11-171.1 选题背景11-121.2 垃圾短信整治现状12-141.2.1 垃圾短信监管概况121.2.2 垃圾短信过滤技术现状12-141.3 研究内容14-151.4 论文组织15-172 垃圾短信及其过滤方法17-252.1 垃圾短信及特征分析17-182.1.1 短信的格式172.1.2 垃圾短信的特征分析17-182.2 温碧霞走出婚变垃圾短信过滤端口18-202.2.1 短信工作原理18-192.2.2 垃圾短信过滤机制19-202.3 垃圾短
信过滤方法20-232.3.1 基于流量控制方法20-212.3.2 基于关键词匹配方法212.3.3 基于黑白名单过滤方法21-222.3.4 基于内容的垃圾短信过滤方法22-232.4 本章小结23-253 基于支持向量机的垃圾短信过滤方法25-553.1 54岁张曼玉逛地摊支持向量机理论及其模型25-323.1.1 统计学习理论25-283.1.2 支持向量机基本思想283.1.3 支持向量机数学模型28-323.2 基于支持向量机的短信分类方法32-433.2.1 短信预处理33-343.2.2 短信特征降维瞿颖 张亚东34-383.2.3 短信的文本表示38-403.2.4 构建分类器40-413.2.5 支持向量机的反馈学习41-433.3 评价标准及实验分析43-473.3.1 实验环境433.3.2 实验数据433.3.3 评价标准43-443.3.4 特征降维方法实验结果及分析44-453.3.5 惩罚参数实验结果及分析45-463.3.6 核函数实验结果及分析46-473.3.7 支持向量机与神经网络方法实验比较473.4 支持向量机短信分类方法遇到的问题及改进办法47-523.4.1 存在的问题及分析47-483.4.2 改进方法48-493.4.4 实验结果及分析49-523.5 本章小结52-554 垃圾短信过滤系统的设计与实现55-634.1 系统框架设计55-564.2 系统主要模块56-574.2.1 基于特征过滤模块564.2.2 基于内容识别模块56-574.3 系统主要处理流程57-614.3.1 黑白名单处理流程57-584.3.2 流量控制处理流程58-594.3.3 关键词过滤流程59-604.3.4 支持向量机短信分类过滤流程60-614.4 实验分析王思聪贾青61-624.4.1 实验数据614.4.2 评价标准61-624.4.3 实验结果与分析624.5 本章小结62-635 总结与展望63-655.1 总结635.2 展望63-65参考文献65-68附录68-69作者简介69-70学位论文数据集70