论文(报告、案例分析)
专 业 电子商务
班 级 电子商务1班
学生姓名 王烁晨 薛越洋
学 号 2010211013 2010211190
任课教师 师鸣若
2013年 1月 19日
网络搜索引擎的比较研究
学生姓名: 王烁晨 2010211013 薛越洋2010211190
摘要: 搜索引擎已成为中国互联网用户获取网络信息的主要工具,利用搜索引擎查询网上信息资源已成为解决网络资源利用的有效方式, 信息界亦掀起了搜索引擎研究的热潮. 文中简单介绍了搜索引擎及其在全球与中国的现状, 并以目前国内外排名靠前的搜索引擎Google、百度和雅虎为研究对象, 从界面、内容、问答、用户结构、经营等多个角度进行比较, 旨在挖掘3者各自的特殊, 为搜索引擎的个性化比较研究提供依据. 最后作出总结并提出了搜索引擎的未来发展趋势及本文不足之处.
关键词: 搜索引擎; Google;百度;雅虎; 比较研究
引言
Internet 与全球电信的迅猛发展使信息资源的“生产”、“传播”与“消费”出现了新的格局. 信息资源如雨后春笋, 信息在网络上的传播速度跨数量级的提升, 使得上网用户获取真正有用的信息越来越难. 如何在网上快速、有效地获取信息资源, 已经成为信息查询者的一大难题, 因此网络搜索引擎应运而生.
搜索引擎已成为中国互联网用户获取网络信息的主要工具, 它对迅速筛选所需信息起到很重要的作用. 如今世界上的搜索引擎数以万计, 因此, 选择合适的搜索引擎就成为重中之重. Google、百度和雅虎中国是目前比较有影响力的三种著名的搜索引擎, 本文将对其主要的性能指标进行分析比较, 以期抛砖引玉, 使现有的中文搜索引擎发展得更快更好.
1网络搜索引擎的含义及分类
网络搜索引擎又称为网络检索引擎, 其英文译名为Search Engine. 广义上是指一种基于Internet的信息查询系统, 包括信息抓取、信息管理和信息检索; 狭义上是指一种为搜集Internet上的网页而设计的检索软件. 现有的网络搜索引擎基本上分为3 类:
(1)独立搜索引擎(Single search engine). 其特点是仅在搜索引擎的本身数据库中查询, 如我们经常使用的Google、百度、雅虎等.
(2)元搜索引擎(Meta search engine). 所谓元搜索引擎是对分布于网络的各种检索工具的全局控制机制, 它通过一个统一的用户界面帮助用户在多个搜索引擎中选择和利用合适的搜索
引擎来实现检索操作. 其特点是对查询得到的结果进行不同程度的处理, 如:删除重复结果、检验连接、结果按相关度排序等. 元搜索引擎本身按照其工作方式的不同又分为并行处理引擎和串行处理引擎.
(3)网络搜索软件(Net search software). 其特点是网络用户可将相应的搜索软件下载至本地计算机上安装查询, 是一种具有网络查询功能的离线浏览器.
2网络搜索引擎的搜索原理
网络搜索引擎实际上是个专用的WWW服务器, 它存有庞大的索引数据库, 收集了全世界上百万甚至上千万个WWW 主页的文字信息. 为了收集这些信息, 有个自动检索程序(Robots)沿着WWW 的超文本链经常搜索整个WWW 上的主页家纺品牌排名, 然后为这些主页上的每个文字建立索引并送加集中管理的索引数据库. 索引信息包括文档的WWW 地址、每个文档中单词出现的频率和位置等. 使用WWW 搜索引擎时, 可以根据用户输入的关键词, 在自己的数据库中查询相关信息, 然后将结果( 网址) 提供给用户.
3三大搜索引擎简介
3.1 Google(le)简介
Google 是由斯坦福大学计算机科学系Larry Page 和Sergey Brine 博士于1998 年创建. 支持30 多种语言检索, 包括中文简体和繁体, 并有中文Google网页. 当输入检索词后, Google 每次可以检索30 多亿个网页, 从众多的网页中选取与检索式匹配的链接, 检索效率极高. Google 富于创新的搜索技术和典雅的用户截面设计, 使Google 从当今的第一代搜索引擎中脱颖而出. 2000 年9 月, Google 开启中文搜索服务, 2004 年8 月在纳斯达克上市, 开创了第二代搜索引擎技术. 许多权威机构都将其评为最佳搜索引擎. Google利用“蜘蛛程序”在互联网上抓取各个网站的网页,对网页内容进行分词处理, 并对抓取到的网络进行超链接分析.
Google是一个功能强大、网络信息资源非常丰富的搜索引擎, 包括35个国家和地区的语言资源, 占有全球搜索市场的80%. Google原意是表示1后面带有100个零的数字, 使用这个词代表公司想征服网上无穷无尽资料的雄心.正如其所期望, 许多权威机构都将其评为最佳搜索引擎, 全世界平均每天上网人次高达1.5亿. Google在中国搜索市场的市场份额突破30%, 并且增长速度迅猛, 在中文搜索市场有举足轻重的作用. 公司产品Google是全世界最受欢迎的搜索引擎, 使用一种自创的称为PageRank TM(网页级别)技术来索引网页, 索引是由程
序“Google bot”执行的, 它会定期地请求访问已知的网页新拷贝. 页面更新愈快, Google bot访问得也愈多, 再通过在这些已知网页上的链接来发现新页面, 并加入到数据库. 索引数据库和网页缓存大小是以兆兆字节(terabyte)来衡量的.
3.2 百度(www.baidu)简介
百度是中国的两位海外留学生李彦宏和徐勇博士创建的中文搜索引擎, 它拥有目前世界上最大的中文信息库, 总量达到1 亿2 千万页以上, 并且还在以每天几十万页的速度快速增长. 2000年1月, 百度公司在中国成立了他的全资子公司百度网络技术( 北京) 有限公司, 随后于同年10月成立了深圳分公司, 2001年6月又在上海成立了上海办事处. 2005年百度在美国纳斯达克上市, 成为当年全球资本市场上最为引人注目的上市公司, 百度由此进入一个崭新的发展阶段.
百度搜索引擎(www.baidu)的起名源于“众里寻她千百度”和突破“事儿做到九十九度就是做到头”的西方说法, 百度就是想要力争做到一百度, 做到顶上开花的境界.
百度搜索引擎具有高准确性、高查全率、更新快以及服务稳定的特点, 能够帮助广大网民快速的在浩如烟海的互联网信息中到自己需要的信息, 因此深受网民的喜爱.
百度是目前全球最优秀的中文信息检索与传递技术供应商. 它在中文互联网拥有天然优势, 目前收录中文网页已超过12亿个, 这些网页的数量每天正以千万级的速度在增长; 同时, 百度在中国各地分布的服务器, 能直接从最近的服务器上把所搜索信息返回给当地用户, 使用户享受极快的搜索传输速度. 目前, 中国所有提供搜索引擎的门户网站中, 超过80%以上都由百度提供搜索引擎技术支持.
3.3 雅虎(www.yahoo/)简介
雅虎中国是网站分类目录导航的领头军, 它以分类目录、网站检索为主, 附带网页全文检索, 也是目前最重要的搜索服务网站. 雅虎有中文、英文等10余种语言版本, 每一版的内容互不一样. 林保怡的老婆可以说, 祝福语520每一种不同的版本都是一种不同的、相对独立的搜索引擎.
雅虎是最知名、最流行的互联网门户网站之一. 它最初只是一个主题目录, 现如今已集搜索引擎、目录和门户网站于一身. 想进入雅虎门户网站和主入口点, 只要输www.yahoo. 要想直接使用该搜索引擎, 请输入search.yahoo; 要想使用目录, 请输入dir.yahoo. “ 雅虎” 中规中矩, 网页搜索表现不错,但死链率较高而且缺少一些应有的高级搜索功能. 另外, 该搜索的易用性有待提高, 虽然升级后改善了网页的界面,杨千嬅祖籍严格控制搜索页面中的排名广
告, 规定每次搜索结果中的广告数量不能超过5个, 但用户打开雅虎中国的首页时还是要受到一些影响. 而且, 对搜索结果的描述和在用户搜索过程中的提示说明也不太清晰明了, 离雅虎“关注用户体验”这一宣传口号, 还有一定的距离.
4 Google、百度和中国雅虎的对比
衡量一个搜索引擎质量的优劣主要看其检准率和检全率. 这既是搜索引擎要实现的目标, 也是它发展的动力. 检准率是指搜索到的信息与所需信息相关度高马蓉偷情, 检全率是揩搜索到的有用信息尽可能全面, 因此搜索引擎的融合也可看成检全率与检准率的融合. 具体还可从以下6 个方面进行考虑:
4.1三大搜索引擎检索界面比较
首页是搜索引擎的“门脸”, 也是其展现特的一个地方. 雅虎引擎在打开速度上略逊于Google, Google又略逊于百度. 如以下图片是2012年5月1日百度、Google搜索引擎的首页, 百度和Google都体现出该天为“五一劳动节”, 只有中国雅虎未体现,从这一点上可以看出百度和Google搜索引擎对于实时性的关注程度是非常大的.
Google图片搜索引擎的界面简单、清晰. 在Google的首页上点击“图片”链接就进入了Google的图片搜索界面. 在关键字栏内输入想要搜索图片内容的关键字, 如“世博会中国馆壁纸”就可以搜索到大量与世博会中国馆相关的图片. 此外, 在界面上还提供“高级图片搜索”“使用偏好”“图片搜索帮助”3个辅助链接, 方便使用者根据自己的使用习惯调整和加强检索性能.
百度图片搜索引擎的界面也十分简单、易用. 在百度的首页上点击“图片”链接就进入了百度的图片搜索界面. 同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片. 百度提供的图片范围有“新闻图片”“全部图片”“壁纸”“表情”“头像”, 白百合跟王珞丹用户可以根据所要图片的大小和用途来缩小检索范围; 同时百度还提供分类浏览目录, 方便用户从类别上进行搜索.
雅虎图片搜索引擎的界面非常简洁. 在雅虎的首页上点击“图片”链接就进入了百度的图片搜索界面. 同样在关键字栏内输入图片内容的关键字后就可以搜索到大量相关的图片. 雅虎为注册用户提供了个人图片存储中心, 可以将查到的图片存入雅虎相册. 雅虎图片搜索使用了图片过滤器, 雅虎会自动过滤掉不符合相关法律法规的图片网页等.
4.2 三大搜索引擎内容比较
Google 的检索结果按相关性由大到小排序输出, 其相关性判断依据的是检索词在网页中的出现词频、位置, 另外一个重要的依据是通过与该网页链接的网页与检索词的匹配程度来判断其相关度大小.
发布评论