指导教师:
参赛队员:
通信与信息工程学院
2010年8月19日
网页排序问题
摘要
随着互联网的发展,搜索引擎的重要性与日俱增。如何有效的查需要的信息是非常关键的,一个好的搜索引擎可以极大的节省用户查信息的时间。搜索引擎包含多个组成部分,其中网页排序是搜索引擎设计的核心问题,排序结果的准确率直接决定了搜索引擎的性能和
用户体验。信息检索领域中有许多的网页排序算法。而PageRank技术在著名的Google搜索引擎中被成功的应用。使得Google的搜索精度大大超过了以前的搜索引擎。但是这种算法只考虑网页的具体内容和网页的超链接信息,并没有考虑网页的客户应用信息,因此这种网页排序方法并不全面。它会使得用户并不关心的一些网页排在前面,而真正满足用户需要的网页排到了后面。
本文对PageRank排序算法做了进一步研究,通过对网页类型、网页更新时间等网页性质进行分析,提出了一种更加全面的网页排序算法。我们对这3个关键因素分别建立了:网页更新时间与网页类型的函数关系TP、网页点击率与网页类型的函数关系CP。再结合文档相关度Sim、网页质量Q,最终得到一个可以对网页重要性进行定量说明的网页得分模型:。根据分数的高低进行排序,从而建立了一个新的网页排序规则。
最后对所建立的网页排序规则进行验证。我们利用模糊综合评价模型,从宏观角度进行了验证。同时,也利用实验抽样的方法,从微观角度进行了验证。最终得出结论:改进后的网页排序算法是合理的,并且优于现在流行的pagerank排序算法(Google)。
关键词:搜索引擎 网页排序 pagerank算法 模糊综合评价 蚁算法
1.问题重述
当我们利用搜索引擎,如google、百度等按关键字搜索时,往往希望我们感兴趣的网页靠前排序优质护理服务总结。实际中你可能也注意到所搜索到的结果是进行了排序的。现在请你们建立数学模型解决下面的问题:
1、试设计一种你们周柏豪女友认为合理的排序规则,使搜索到的网页结果排序满足要求;
2、选取若干个网页为例,试用你们的规则进行一次排序,并说明规则的合理性。
2.基本假设
(1) 网页的点击是正常的,不存在为了某种利益,进行人为恶意的点击;
(2) 如果网页排序相差不大的,那么我们认为此类网页的重要程度基本相同;
(3) 网页的更新时时间是以天为单位;
(4) 网页都能准确地进行分类,即每个网页都有它唯一对应的类别;
3.主要符号说明
:某网页的权值(重要性);
:某网页的综合得分;
:第个网页的点击率;
:某网页的更新时间函数;
:某网页的点击率函数;
4.问题分析
当今是一个信息时代,信息的数量呈指数级增长,记载着人们需要的信息和知识的已经不仅仅是传统的书籍和报刊,个人电脑、数字通信设备、网络都储存着大量的信息。众所周知。互联网的规模一直在高速增长 , 1 9 9 4 年最早的搜索引擎 World Wide Web Worm标引了11万网页, 如今可标引的网页已超过 100亿。
搜索引擎在网络中的作用越来越重要。人们通过搜索引擎在海量的互联网信息中查自己所需的信息。互联网上的信息包罗万象,几乎包含了整个人类发展历史中所积累的全部知识,并且还在以每天超过100万张网页的速度增长。如何在此巨大的信息海洋中快速检索到自己想要的信息成为人们最关注的问题。而这个问题的关键又在于搜索引擎,搜索引擎原理如图一。
图一 搜索引擎原理图
1998年,斯坦福大学的Sergey Brin和Lawrence Page提出了PageRank算法,并以此为核心开发出的搜索引擎炒豆腐google在商业应用中获得极大成功。由于人们都希望通过搜索引擎尽快到自己真正所需的信息,作为搜索引擎的核心部分,对所搜索网页的排名算法的优劣自然成为评价一个搜索引擎好坏的主要指标。PageRank算法作为著名搜索引擎google的核心算法而备受瞩目,但仍有自己的优缺点,因此我们对其缺点进行改进,得出更加合理的排序算法。
5.模型建立与求解
5.1问题1
5.1.1(模型一)PageRank算法
PageRank算法的主要设计理念是每一个到该网页的链接就是对此网页的一次投票,被链接得越多,就说明有越多的网页愿意将它们自己与此网页挂钩,即链接流行度越高。链接流行度越高,此网页的权值就越大,排名也会更靠前。PageRank算法通过分析此网页被
链接的数量和接入网页的质量来确定网页本身最终的权值。
PageRank算法模拟用户随机浏览的过程,即当用户浏览网时,其跳转到一个随机页面上的概率是d,即其沿着一个(当前页的)随机链接迁移的概率为1-d。假定这个用户不会回退浏览以前访问过的网页,则此过程可以用Markov链来建模,从而求出每个页面的平均概率。我们将整个网络看成一个有向图,则网页为此有向图中的节点,网页间的链接看作有向边。若网页A中有连接到网页B的链接,即,A指向B,为A对B的一次投票。假设网页A有n个网页对其进行了投票,记为小学安全教育计划,设为网页的外向链接数,为页面正的权值,则可以得到此网页的权值(重要性)计算公式:
其中:d为系统设定的经验值,一般取0.15;为网页的权值被平均分成份后对网页A的投票;(1-d)是为了防止接入页面产生过大的影响而对其传给网页的权值进行阻尼;d是为了弥补阻尼掉的权值为防止网页无外部链接时初始PR值为0。PageRank算法通过重复执行算法对网页的权值进行迭代,从而得出网页的PageRank值。
古天乐郭采洁>施伯雄个人资料简介网页排序 :网页排序是根据网页的得分来进行的。 网页的得分分为两个部分,即网页相关性和网页重要性(PageRank值) 。计算公式为:
为了更加深入的表示PageRank算法,我们决定对其进行一个简单的演示。我们对给定的互联网超链接结构,通过此算法进行模拟排序。
图二 网页链接实例
1.将一个互联网超链接结构考虑成一个图,将图表示成临接矩阵,其中,,得到
2.邻接矩阵通过规范化进一步约化成矩阵S和随机矩阵。其中S的元素表示从网页i跳转一次至网页j的概率。得到
发布评论