搜索引擎
1、搜索引擎的概念
搜索引擎(Search Engine)是指根据一定的策略、运用特定的计算机程序从互联网上搜集信息,在对信息进行组织和处理后,为用户提供检索服务,将用户检索相关的信息展示给用户的系统。
2、搜索引擎分类
全文索引、目录索引、元搜索引擎、垂直搜索引擎、集合式搜索引擎、门户搜索引擎与免费链接列表等。
3、搜索引擎工作原理及种类搜索引擎的优缺点
a搜索引擎工作原:页面收录,页面分析,页面排序,关键字查询。
b种类搜索引擎的优缺点
特点
优点
缺点
工作过程
全文搜索引擎
Baidu
自动建立索引数据库
信息量大、更新及时面向具体网页内容,适合模糊搜索
返回信息量过多,包含许多无关信息
自动“抓取”网页→建立索引数据库→在索引数据库中搜索排序→响应用户查询
目录式搜索引擎
sogou
人工整理分类,按主题分类,并以层次树状形式进行组织,形成分类目录树
实实在到用户关心的内容分类,网站导航质量高,面向网站分类
分类不够细,分类目录的建立需要人工介入,目录维护量大,信息更新不及时
人工或半人工收集→人工形成摘要→人工分类
元搜索引擎
没有自己的数据库,以单一的查询接口,将用户查询请求向多个引擎递交,返回经过重新排除、重新排序的综合结果
信息量大,并且比较准确,一次搜索,返回多个搜索引擎的结果
时间稍长,不太适合特殊搜索
以单一的查询接口,将用户查询请求向多个引擎递交,返回经过重新排除、重新排序的综合结果
4、举例对google和百度进行比较分析
1、google 是全球最大的并且最受欢迎的搜索引擎,主要的搜索服务有:网页,图片,音乐,视频,地图,新闻,问答。
(1)Google的功能和特点:
Google 搜索引擎是一个利用蜘蛛程序(Spider) 以某种方法自动地在互联网中搜集和发现信息,并由索引器为搜集到的信息建立索引,从而为用户提供面向网页的全文检索服务的互联网信息查询系统。
①拥有目前最庞大的中文网页数据库,支持多达132种语言,可将多国语言的搜索引擎整合到同一个界面,而且在这个界面下, 你可以定制语言以及到何种网站中去搜索, 不必像Yahoo那样, 要搜索不同语言版本的网站, 必须先进入相应语言的网站。同时会自动根据用户所使用的浏览器设置相应的语言界面。
②不仅对中文支持强大, 而且支持中英文和多种编码混合的检索词。
明星搜索
③其专利网页级别技术PageRank能够提供高命中率的搜索结果, 帮助用户到相关主题的权威网站。
④它不以花哨取胜, 而是以功能表现为本。其网站只提供搜索引擎功能, 界面简洁、易用, 搜索速度快捷, 使得用户所输入的任何关键字或信息均能得到Google快速响应, 且其语链分析的算法还会将搜索结果排列出优先次序, 从而使重要的结果排列在前, 节省了用户查询时间。
⑤在查询多个关键字时, 只提供包含所有关键字的网页, 而且遵从关键字的相对位置。
⑥其搜索结果通常会比其它搜索引擎来得更准确, 且搜索结果摘录查询网页的含有关键字的内容, 而不仅仅是网站简介。
⑦其“网页快照”功能, 能从Google服务器里直接取出缓存的网页, 基本上避免了死链或页面连接不上对搜索用户造成的不便, 且其查速度较常规链接快得多。
⑧具有十分简单、方便的新网站登录功能, 除了接受网站自行提交的申请外, Google自身也经常在互联网上漫游, 搜寻新网站, 经过必要的分析后作取舍、更新和编排等处理。
(2)Google检索实例:
    ①单个检索词的检索
示例:搜索“元芳”
操作  敲回车键(Enter)或点击“Google搜索”按钮,即可检索到有关“元芳”的资料。
②多个关键字的检索
搜索结果要求包括两个及两个以上关键字,需在关键字之间加上“与”或“+”或“and”;搜索结果要求不包括某些特定信息时,用“—”表示逻辑非操作。
示例1:搜索所有关键字“木有”和“稀饭”的中文网页。
操作  在搜索框中键入“木有 稀饭”,敲回车。
示例2:搜索所有包含“木有“不含“稀饭”的中文网页。
操作  在搜索框中键入“木有—稀饭”,敲回车。
③高级检索
搜索专用语 只要在专用词语上加上英文双引号,就可以准确地进行查询。这一方法在查名言警句或专有名词时显得格外有。
示例:搜索包含“long long ago”字串的页面。
操作  输入: “long long ago”,敲回车。
④限制搜索的网站 可用“site”将搜索结果局限于某个具体网站、网站频道或某个域名。若要排除某网站或者域名范围内的页面,只需用“-网站/域名”。
示例:搜索中文教育科研网站(edu. cn)上包含“天津师大”的页面。
操作  输入“天津师大 site:edu ”
⑤搜索某一类型文件 可用“filetype: ”来搜索。
示例:搜索有关“信息检索”的PDF文档。
操作  输入:“信息检索 filetype:pdf”
⑥搜索的关键字包含在URL链接中  “inurl:”返回的网页链接中包含第一个关键字,后面的关键字则出现在链接中或者网页文档中。INURL语法和基本搜索语法的最大区别在于,前者通常能提供非常精确的专题资料。
    示例:查MIDI曲“沧海一声笑”。
    操作  输入:“ inurl:midi 沧海一声笑”
⑦搜索的关键字包含在网页标题中可用“intitle”和“allintitle”来搜索,其用法类似于inurl 和allinurl,只是后者对URL进行查询,而前者对网页的标题栏进行查询。
示例:查韩国明星玄彬的照片集。
操作  输入:“intitle:玄彬 写真”
Google还具有很多强大的检索方法,这里不再赘述。感兴趣的读者可自行学习。
(3)Google的优越性
①界面简洁
Google的首页美观、简洁,使用户能直观地感觉到搜索引擎功能的存在和其搜索功能强大的可能性,从而有继续搜索操作的愿望。主页设计没有分类目录,不会使人眼花缭乱而无所适从,给人以开门见山的感觉。
②易用
Google采用了新一代的网页级别(PageRank)先进技术,,这种技术使网页之间链接直接,畅通无阻。有效链接率高,也为用户带来便捷、易用的效果。此外,,Google 还提供了详尽、具体的“Google 说明”,用语大众化,易于理解。还配以清晰的图片,加以强化解释。
③快速
Google 搜索速度的快捷是它的又一大特。用户所输入的任何关键字或信息, 都能得到Google 快速的响应,且其超链分析的算法还会将搜索结果排列出优先次序,从而使重要的结果排列在前,节省了用户的查询时间。此外,Google数据库的更新速度快,有效链接率高,这些都是带出搜索快速的重要因素。
④相关性高
Google根据网页间彼此的连接关系,把一篇网页被连接数目的多寡视为其相关性的一项指标。对于用户所输入的关键字,Google最大程度地寻求语义上匹配。此外,Google还包含汉字的相关性,例如对中文简体网站,出对应的繁体网站,甚至是日文网站。高相关性更好地提高了Google 搜索的结果的精准度,还提高了搜索效率。
(4)Google的不足之处
至目前为止,在满足用户的搜索需求上,Google 依然存在一些令人遗憾的地方。
①其数据的更新速度无法进一步提高。由于数据量的庞大,使Google搜索引擎的数据更新无法早于30天, 在一定程度上影响了用户对信息的时效需求, Google目前还无法突破这一瓶颈。
②无法搜索动态生成的网页。因为大多数负责搜索网页的蜘蛛软件都不敢去碰动态网页,怕被变化无穷的动态系统黑洞吸进去出不来,Google虽然在这方面的研究虽然取得一些突破,但离真正的实用还有一段路要走。
2、百度 是目前全球最优秀的中文信息检索与传递技术供应商。中国所有提供搜索引擎的门
户网站中,超过80%以上都由百度提供搜索引擎技术支持,现有客户包括新浪、搜狐(chinaren) 、Tom (163. net ) 、腾讯、263、21cn、上海热线、广州视窗、新华网、北方时空等。
(1)Baidu(百度)的功能和特点:
Baidu(百度)搜索引擎使用了高性能的“网络蜘蛛”序(Spider) 自动的在互联网中搜索信息,可定制、高扩性的调度算法使得搜索器能在极短的时间内收集到最大数量的互闻网信息。
① Baidu(百度)搜索引擎采用了先进的“链接分析(LinkAnalysis)”技术,这种技术将传统情报学中的引文索引技术同Web中最基本的东西——“超级连接分析”的技术相结合,在查的准确性、查全率、更新时间、响应时间等方面与其他技术相比都有很大的优势;同时,Baidu(百度)应用内容相关度评价技术,并且运用了中文智能语言的处理方法, 依靠字与词的不同切割方法,弥补了单纯依靠字或词的引擎技术的缺陷, 并且能够在不同的编码之间转换, 这就使得简体字和繁体字的检索结果自然结合,相得益彰。
②Baidu (百度) 搜索引擎是目前更新时间最快、数据量最大的中文搜索引擎, 我们知道,互联
网用户对新信息的查询是一个很大的需求,在Baidu (百度) 搜索引擎推出之前,最快的信息更新时间是30天左右,而Baidu (百度)搜索引擎的信息更新时间能做到一周一次,这样更加方便了互联网用户对新信息的查询。
③Baidu(百度)搜索引擎的可扩展性和ASP(APPLICATIONSERVICEPROVIDER) 商业服务模式是它的两个最鲜明的特点。一些搜索引擎网站当用户登录数量到达高峰的时候, 整个系统就接近瘫痪了,这是因为这些搜索引擎不具备真正的可扩展性。而Baidu (百度) 搜索引擎就可以承受所有高峰的负荷而不会在性能方面有任何偏差;Baidu (百度) 的客户主要是门户网站,而不是最终的网络用户,所以Baidu (百度)采用了国内最为流行的ASP(APPLICATIONSERVICEPROVIDER) 商业服务模式。
④Baidu (百度) 搜索引擎对外免费提供中文检索代码。
⑤Baidu (百度) 搜索引擎支持动态网页。此外,Baidu(百度)搜索引擎还成功地解决了中英文混合查询的问题。
(2)Baidu(百度)检索实例:
①    Baidu(百度)自动带有“and”的功能,不支持“and”、“+”等符号的使用。关键