科技融.
基于协同过滤的M ul t i-agent反垃圾邮件系统的研究
王建玺王刘涛
(平顶山学院,河南平顶山467000)
,r
4£}裔要】基于单客户端的垃圾邮件过滤系统面对技术越来越高明的垃圾邮件发布寿已经突现出它的弱点,多^譬enf技术为垃圾邮件过滤系统的设计提供了新的思路。旨在将M ul t i—age nt技术和协同过滤的思想引入到垃圾邮件过滤系统中,设计一个多层次垃圾邮件过滤系统。该,系统针对垃圾邮件—般发给多人的特点,提取用户的操作和阅读速度进行反馈,利用他人的反馈结果进行协同过滤。
:饫键词]协同过滤;垃圾邮件;反馈;M ul t i—a ge nt系统
随着互联网的普及,以其快捷、方便、低成本的特点得到了广泛使用,但是随之而来的垃圾由附也越来越猖獗,这些垃圾邮件污染网络环境、占用网络带宽和存储资源、干扰网络及邮件系统的正常运行j因此,研究反垃圾邮件技术具有很重要的现实意义和应用价值。
现有的反垃圾邮件技术主要分为基于黑/白名单的邮件过滤、基于规则的邮件过滤、基于内容的邮件过滤等,垃圾邮件过滤系统通常综合这些过滤技术对垃圾邮件进行立滤。但单机工作的垃圾由阱牛过滤系统所能获得的垃圾邮件数据毕竟是有限的,同时垃圾邮件发送者的手段又越来越高明,因此,这种依靠单一的过滤器来过滤的方法已经不能满足现实的需要。同时,对于目前广泛使用的基于内容的邮件过滤技术也有其局限性:如它针对一些内容比较隐蔽的垃圾邮件和利用附件进行垃圾信息传播的邮件无法实现很好的过滤。鉴于此,本文提出了一种基于协同过滤的M ul t i—agent反垃圾邮件系统框架模型,并就协同过滤中如何收集用户反馈信息这一重要问题给出了解决方案。旨在结合I nt em et 上各用户邮件客户端的力量,共享反垃圾邮件信息,使各客户端形成一个协调统一的整体来共同抵制垃圾邮件从而提高垃圾邮件的过滤效果。
1M ul t ka ge nt技术和协同过滤
1.1M ul t i—agent技术
A gent是指分布式系统或协作系统中能持续自主发挥作用的、具有自主性、交互性、反应性和主动性特征的计算实体。A ge nt按其应用可分为单a ge nt系统和多a gent(M ul t i—A gent)系统。单a gent系统主要用于实现本地任务,其应用非常灵活、主动,但它不能满足复杂任务的需要,这些复杂任务需要由多agent完成。多agent系统是指多个A ge nt成员之间相互协调、相互服务,共同完成一个任务。各A—ge
nt成员之间的活动是自治独立的,其自身的目标和行为不受其它A—ge nt成员的限制,它们通过竞争和磋商等手段协商和解决相互之间的矛盾和冲突。鉴于M ul t i—a ge nt系统所具有的自主性、分布性和协作性,我们完全可以将其应用于垃圾邮件检测中。
12协同过滤
在现实生活里,对自己最有效的信息,往往是来自于朋友们的推荐,这就是我们常说的。口碑相传”。协同过滤正是把这一思想运用到一些推荐系统中,基于一些用户对某—信息的评价来向另一些用户进行推荐。因为垃圾邮件的一大特点就是发,那么我们可以假设:如果发对象中的一大部分人都认为这封邮件是垃圾邮件,那么该邮件是垃圾邮件的可能性就非常大,这—评价就可以推荐给收到这封邮件的其他用户。因此,将协同过滤引入到垃圾邮件过滤中,将可以弥补基于内容过滤的不足。
与基于内容的过滤方法相比,协伺过滤具有如下的优点:
1)能够过滤难以进行自动分析的信息,如音频、视频、邮件的附
件等;
2)能够有效的使用其他相似用户的反馈信息,共享他人的经验:
3)有推荐新信息的能力,能够对之前并未学习过的内容进行过滤。
建立-个基于用户的协同过滤系统通常需要三个步骤。
步骤一,最近邻搜索。
180
2009年8月l下)
协同过滤的出发点是收到发邮件的一组用户,术语叫做“最近
邻”。最近邻搜索的核心是计算用户收到的邮件的相似度。
步骤二,收集用户反馈信息。
用户对—封邮件的评价可分为“显式评价”和“隐式评价”,例如:163邮件客户端中的“这是—封垃圾邮件”按钮就属于显式评价,这种方式实现非常简单。缺点是收集数据比较困难,因为用户通常并不愿意费力气为你贡献这种数据。另外一种被认为更有效的方法是“隐式评价”,这种方法不需要用户直接输入评价数据,而是根据用户的行为特征由系统代替用户完成评价。
步骤三,生成准荐结果。
有了最近邻集合和他们的评价,就可以生成推荐结果。这里有一个问题就是多少个用户的评价才具有代表性,才可以作为结果推荐给其他用户。
2系统设计
系统的总体架构如图1所示:
图1系统总体架构
该系统分为三层:邮件服务器、协同服务器和邮件客户端。其中,邮件服务器层负责邮件的发送和接收,协同服务器层实现邮件摘要管理和协同过滤,邮件客户端层除了具备基本的邮件客户端功能外,还负责实现贝叶刖I陈、过滤以及El i B件评价反馈。
下面针对协同服务器层和邮件客户端层进行详述。
21协同服务器层
协同服务器维护着一个协同库,当邮件经邮件服务器发送给协同服务器时,系统根据改进的N i l si m sa哈希算法生成邮件正文的摘要,协同库通过对具有相似摘要值的邮件进行聚类,并结合用户的反馈值,形成两个不同的集合:普通邮件集合和垃圾邮件集合。
协同过滤服务器计算出每一封新邮件的摘要值之后,根摘要在
协同库的垃圾邮件集合中进行查询。如果命中,则直接判定为垃圾邮件,转移至用户邮件夹。同时此邮件可以作为贝叶聊l|练的输八。如果未命中,则表示协同过滤无法判断是否为垃圾邮件,则转交给下一级过
滤模块来处理。同时在普通邮件集合中查询该摘要,并对相似的邮件进行聚类。
22由『噼客户端层
邮件客户端主要采用基于内容的贝叶斯技术进行过滤,贝叶斯过滤技术充分使用了协同过滤的输出结果进行训练,通过特征提取方法、多次迭代训练方法等进行自适应过滤。同时,客户端的另—功能是实现用户反馈信息的收集。
反馈收集。本文引入一种基于用户行为分析的隐式评价方法,通过记录、分析用户在邮件客户端的一些行为来得到用户对邮件的评价信息。我们把用户在访问邮件客户端时的行为分为六种:直接删除、阅读、回复、转发、添加到地址薄、从垃圾邮件夹移动到别的邮件夹,用户的这些特定行为很大程度上代表了用户对邮件的评价,加上前面提到的显式获取信息方法,即点击“这是—封垃圾邮件”按钮的行为,用户对邮件的整体评价值可以用这七种行为的加杈和表示,并且这t种评价值存在如下关系:点击“这是
垃圾邮件”>直接删除>阅读后删除>转发>回复>添加到地址薄>从垃圾邮件夹移动到别的邮件夹,评价值越大表示用户越认为这是垃圾邮件。应该注意到的是,这七种操作存在覆盖关系,比如用户点击“这是垃圾邮件”之后,我们就没有必要统计其它操作的评价值了。
这些操作里面比较特殊的是阅读。用户读得很仔细,速度很慢,就表示这封邮件很有价值。反之,如果用户很快浏览一下,这封邮件就有可能是垃圾邮件。结合用户的删除动作,我们能更准确的推测用户的真实评价。由于每个用户阅读邮件的习惯不一样,有的总是很快,有的总是很慢,所以我们应该采用阅读的相对速度,即将用户读这封邮件的速度同他自己的通常速度相比较而得到的值。我们设计的邮件系统客户端的用户反馈模块将会获取这些数据,计算出用户对邮件的反馈值,并更新至!H办同服务器,以帮助服务器进行协同过滤。
用户u阅读邮件m的相对速度V(u,m)用如下公式表示。
b咖等等
【Y<u,朋)=K
廛围抖蕉
Ti m e(u,m)>0
Ti m e(u,m)<0其中,S i ze(m)为邮件m的大小,T i m e(U,m)为用户u阅读邮件m的总时间,M ean(V u)为用户u阅读邮件的平均速度。由于每个人阅读邮件的习惯可能不一样,所以速度V(u,m)是一个相对值,表示一个用户对邮件的阅读速度偏好特性。如果Ti m e(U,m)等于0,即用户直接删除邮件,这种情况下定义其阅读速度为平均速度的k倍。
3结束语
本文提出了一种基于协同过滤的M ul t i—agent反垃圾邮件系统,其采用JA D E作为运行平台,Ja vaM ai l A PI实现邮件的收发,数据库采用的是SQ L Se ver,J D B C作为数据库接口,该系统使得各独立的邮件客户端能相互协作U而提高邮件过滤的准确度。
基金项目:2008年度平顶山学院青年科研基金项目。
作者简介:王建玺,1981年生,女,河南社旗^,助教,研究方向为计算机网络安全;王刘涛。1981年生。男。河南项城人,助教。研究方向为软件工审k
’[参考文献]’≯7川范玉顺唐军威多代理系绕理论、方法与应用f M Jj E京:清华大学出版社,。
2002.:12】蔡登,卢增祥,李衍达.信息协同过滤廿1计算机科学.2002.
,【3J邱明明,吴国新.基于P2P的协作式垃圾邮件检捌系统U】.计算机工程与设,,7汁.2007.!,f4】胡睿基于贝叶斯分类的中文垃圾邮件过滤方法研究和改进p】.北京:清,,华大学,2006.√
(上接第164页)
量,其体积用增加骨科用量来补充。
4)减水防裂剂可以改善水泥浆的稠度,减少混凝土泌水,减少沉缩变形。
5)提高水泥浆与骨料的粘结力,提高的混凝土抗裂性能。
6)混凝土在收缩时受到约束产生拉应力,当拉应力大于混凝土抗拉强度时裂缝就会产生。减水防裂剂可有效的提高的混凝土抗拉强度,大幅提高混凝土的抗裂性能。
邮件发7)掺加外加剂可使混凝土密实性好,可有效地提高混凝土的抗碳化性,减:!弼眦收缩。
4混凝土的早期养护
混凝土的早期养护,主要目的在于保持适宜的温湿条件,以达到两个方面的效果,一方面使混疑土免受
不利温、湿度变形的侵袭,防止有害的冷缩和干缩。一方面使水泥水化作用顺利进行,以期达到设计的强度和抗裂能力。适宜的温湿度条件是相互关联的。混凝上的保温措施常常也有保湿的效果。从理论上分析,新浇混凝土中所含水分完全可以满足水泥水化的要求而有余。但由于蒸发等原因常引起水分损失,从而推迟或防碍水泥的水化,表面混凝土最容易而且直接受到这种不利影响。因此混凝土浇筑后的最初几天是养护的关键时期,在施工中应切实重视起来。
5结语
以上对混凝土的施工温度与裂缝之间的关系进行了理论和实践上的初步探讨,虽然学术界对于混凝土裂缝的成因和计算方法有不同的理论,但对于具体的预防和改善措施意见还是比较统一,同时在实践中的应用效果也是比较好的,具体施工中要靠我们多观察、多比_较,出现问题后多分析、多总结,结合多种预防处理措施,混凝土的裂缝是完全可以避免的。
[参考文献]
【1l贾虚春.崔清强苏通大桥辅桥皇墩承台大体积混凝±施工温度控制田.轿粱建设。2006.
f21周先雁t肖云风曹国辉用超声波法检测钢管混凝土质量的研究珊铁道科学与工程学报。2(J06.