搜索引擎详解
一、搜索引擎的定义
搜索引擎是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。百度和谷歌等是搜索引擎的代表。
二、搜索引擎的发展过程及特点
用户的大众化,和信息量的高速增长,向用户提出了一个问题,及普通用户面对海量及不断增长的信息资源,如何快速有效的到所需的资源?为了解决该问题人们开始了对各种各样的网络信息检索工具的研究。
1、搜索引擎的雏形
(1)匿名FTP文件检索工具-----Archie,是网络上出现最早的信息检索工具,是由加拿大蒙特利尔的麦基尔大学的大学生开发的。它依靠基于脚本的采集程序自动搜索匿名FTP站点的文件,然后对有关信息进行索引,供使用者以文件名进行查询。
(3)网络上的第一只蜘蛛-----World Wide Web Wanderer是美国麻省理工大学开发的,最初是用来统计互联网上的服务器数量,后继发展,它可以同步抓取网络地址,抓取的URL形成第一个Web数据库,其成为了搜索引擎的先锋,优点是能够自动处理并积累数据库,缺点是耗费网络带宽。
(4)HTTP版本的“Archie”-----ALIWEB是由美国Martijin Koster 创造的类似“蜘蛛”的自动搜索引擎。通过人工采集信息,很好的解决了网络带宽滥用的问题,不过数据库的规模较小。
2、基于网络机器人的标题搜索引擎
基于该思想的搜索引擎有代表性的有:英国施特灵大学的JumpStation、美国科罗拉多大学的WWWW以及NASA有一个地方只有我们知道票房的Responsitory--Based Softenwarehouse Engineering Spider。它们通过自动抓取网页的 标题信息组成数据库,然后通过检索提问和应答而到结果。
3、可搜索的网络目录
Galaxy和Yahoo是可检索目录的代表,使用它们进行信息检索比用搜索引擎更好,因为它们在信息采集和加工过程中集成了人的智力劳动。
4、全文搜索引擎
全文搜索引擎是名副其实的搜索引擎,国外代表有Google,国内则有著名的百度搜索。它们从互联网提取各个网站的信息(以网页文字为主),建立起数据库,并能检索与用户查询条件相匹配的记录,按一定的排列顺序返回结果。
在搜索引擎分类部分提到过全文搜索引擎从网站提取信息建立网页数据库的概念。搜索引擎的自动信息搜集功能分两种。一种是定期搜索,即每隔一段时间,蜘蛛搜索引擎搜索引擎主动派出“蜘蛛”程序,对一定IP地址范围内的互联网站进行检索,一旦发现新的网站,
它会自动提取网站的信息和网址加入自己的数据库。
另一种是提交网站搜索,即网站拥有者主动向搜索引擎提交网址,它在一定时间内定向向你的网站派出“蜘蛛”程序,扫描你的网站并将有关信息存入数据库,以备用户查询。
5、元搜索引擎
垂直搜索引擎为2006年后逐步兴起的一类搜索引擎。不同于通用的网页搜索引擎,垂直搜索专注于特定的搜索领域和搜索需求(例如:机票搜索、旅游搜索、生活搜索、小说搜索、视频搜索等等),在其特定的搜索领域有更好的用户体验。相比通用搜索动辄数千台检索服务器,垂直搜索需要的硬件成本低、用户需求特定、查询的方式多样。
三、搜索引擎的组成
搜索引擎一般由搜索器、索引器、检索器和用户接口四个部分组成:
搜索器
其功能是在互联网中漫游,发现和搜集信息;
索引器
其功能是理解搜索器所搜索到的信息,从中抽取出索引项,用于表示文档以及生成文档库的索引表;
检索器
其功能是根据用户的查询在索引库中快速检索文档,进行相关度评价,对将要输出的结果排序,并能按用户的查询需求合理反馈信息;
歌星汤灿用户接口
其作用是接纳用户查询、显示查询结果、提供个性化查询项
四、基于Web的搜索引擎的工作原理
搜索引擎的工作过程,一般分为五个步骤:
(1)抓取网页
从互联网上抓取网页,利用能够从互联网上自动收集网页的网络蜘蛛程序,自动访问互联网,并沿着任何网页中的所有URL爬到其它网页,重复这过程,并把爬过的所有网页收集回来。
(2)处理网页
由网页分析程序对收集回来的网页进行分析,提取相关网页信息,根据一定的相关度算法进行大量复杂计算,得到每一个网页针对页面内容中及超链中每一个关键词的相关度。然后用这些相关信息建立网页索引数据库。
(3)提供检索服务
用户通过查询接口输入查询条件,检索程序在索引数据库中检索,从网页索引数据库中到符合该关键词的所有相关网页。页面生成系统将搜索结果的链接地址和摘要等内容组织起来返回给用户。
5、例:Yahoo搜索引擎的工作原理
(1)Yahoo!的类目体系
Yahoo!包括14报效祖国的诗个基本类目体系:
艺术与人文、商业与经济、电脑与因特网、教育、娱乐、政府与政治、健康与医药、新闻与媒体、休闲与生活、参考资料、区域、科学、社会科学、社会与文化等
(2)Yahoo!的分类原理
宋芸桦1> 采用宽泛的分类原则进行分类
2> 类目间灵活组配
3> 利用“>”符号标记分类结果
4> 提供不同的分类途径
冒险岛特鲁六、第二代搜索引擎的技术原理
(1)超链接分析技术
超链分析技术可以提供多种功能,其中的主要功能就是解决结果网页的相关度排序问题。
它主要是利用网页间存在的各种超链指向,对网页之间的引用关系进行分析,依据网页链人数的多少计算该网页的重要度权值。对于超链分析技术,有代表性的算法主要是Page等设计的PageRank算法和Kleinberg创造的HITS算法。其中,PageRank算法在实际使用中的效果要好于HITS算法。
(2)智能化中文语言处理技术
文字信息处理的实质,是先把文字信息数字化,即用一个固定的数码代表一个字母或文字。在汉字的情况下,一般是以一个整字作为文字信息处理的单位,因此要对每一个整字惟一地确定代表它的数码。这一数码统称为代码(code)。利用计算机能够调整处理数据的性能,使文字信息处理也能够分享计算机技术的这一独特优点,从而实现文字信息处理的高效化。
七、搜索引擎的运营模式
在搜索引擎发展早期,多是作为技术提供商为其他网站提供搜索服务,网站付钱给搜索引擎。后来,随着中秋节给领导的祝福短信2001年互联网泡沫的破灭,大多转向为竞价排名方式。现在搜索引擎的主
流商务模式是在搜索结果页面放置广告,通过用户的点击向广告主收费。这种模式最早是比尔·格罗斯(Bill Gross)提出的并取得了很大的成功,并且申请了专利。百度也推出了主题推广服务。
八、未来的搜索引擎
随着互联网的发展,网上可以搜寻的网页变得愈来愈多,而网页内容的质素亦变得良莠不齐,没有保证。个性化趋势是搜索引擎的一个未来发展的重要特征和必然趋势之一。一种方式通过搜索引擎的社区化产品(即对注册用户提供服务)的方式来组织个人信息,然后在搜索引擎基础信息库的检索中引入个人因素进行分析,获得针对个人不同的搜索结果。所以,未来的搜索引擎将会朝着知识型搜索引擎的方向发展,期以为搜寻者提供更准确及适用的资料。
发布评论