浅析搜索引擎优化技术及其应用
作者:徐炜
来源:《科技风》2017年第网页历史记录恢复04
        要:文章分析了船舶救生设备的教学现状,提出了信息化课堂教学的重要性,并介绍了信息化课堂教学在船舶救生设备教学中的具体应用。
        关键词:搜索引擎;优化技术;爬虫软件
        1 搜索引擎工作原理
        1.1 搜索引擎原理
        要了解搜索引擎优化技术,首先需要明白搜索引擎的工作原理。目前国内外的搜索引擎较多,例如谷歌、百度、雅虎、必应等等。虽然其具体的优化和排序算法有一定的差异,但是其基本原理大致相同,一共可以分为五个主要的步骤,分别为网页的抓取、信息的提取、关键字的搜索、建立关键字索引以及网页的排序。其中最为关键的一步就是对于网页的提取。对于搜索引擎而言,其主要目的是对于互联网上的网页进行分析,而后结合用户的搜索要求来实现匹
配。而匹配的主要渠道则是通过用户在搜索引擎的网站上输入对应的关键字,搜索引擎在获取关键字以后根据相应的优化匹配算法降互联网上的网页按照其自身的规则进行排序,从而最终展现在用户界面上。
        1.2 爬虫程序
        从上一小节的介绍中可以知道,对于搜索引擎而言,其最为主要的两个部分是对于网页的检索和处理,其次则是搜索引擎的优化匹配算法。对于不同的搜索引擎而言其优化匹配的算法上可能存在一定的差异。例如用户在google和百度上分别输入对应的关键字进行搜索,由于其优化匹配算法的不同,其搜索的结果就可能出现不一样的情况。
        但是相对于优化匹配算法而言,构成搜索引擎运行关键的另一个部分,即网页的检索以及处理部分则是基本相同的。这部分的工作由两个部分构成,第一是爬虫程序完成对互联网上网页的检索,第二则是对网页内容的处理从而形成关键词的索引。目前主流的搜索引擎大多采用爬虫程序来完成互联网上网页的检索。爬虫软件在工作的过程中,在对互联网上的网页进行检索时主要对网页的链接和内容进行分析。其具体如下图1所示:
        如上图1所示,爬虫软件在对网页进行处理的过程只能够包含两个主要的部分,第一是解析网页中存在的链接,从而获得其他互联网上网页的网址,为后续的网页分析提供依据。否则不能到新的网页则失去了分析的对象,爬虫程序也将终止。第二则是对于网页的文本内容进行分析,了解网页中文本描述的主体内容。需要说明的是,爬虫程序对于搜索引擎而言是在后台一直运行的一项程序,通过爬虫软件的不断运行实现对于互联网上网页检索的动态更新。无论是对网页的内容进行更新还是对于网页链接的更新(即新的网页出现时,更新网页链接)。对于不同类型的网页而言,爬虫软件的处理上也存在一定的差异,例如对于新闻网站的网页而言,特别是其首页,网页的网址和参数等都不会发生变化。但是网页的文本内容上则经常会更新,因此爬虫软件在对这一类网页进行分析时,来回浏览的频率也会相对较高。
        2 搜索引擎优化技术研究
        2.1 对爬虫软件的影响因素
        由上文对于搜索引擎工作原理的介绍可以知道,搜索引擎的工作基础是爬虫软件对于互联网上网页的检索和分析。因此影响爬虫软件浏览到互联网网页的因素都将影响搜索引擎对
于网页的排序。当爬虫软件对于互联网上的网页进行浏览时,如果网页不能正常打开也不会立即影响到搜索引擎对于该网页的排序,但是会产生渐变的影响。这也是为什么用户在通过搜索引擎搜索关键字时,有时候搜索引擎提供的网站不能正常打开的原因。因为该网站虽然不能正常打开了,但是由于爬虫软件对于该网页有历史浏览记录,而搜索引擎对于网页的排序则主要是依据爬虫软件的历史记录来进行匹配的。因此网页不能访问后则会逐步降低搜索引擎对于该网页的排序。
        同理,影响爬虫软件访问的因素还包括以下几点:
        1)网页不能正常打开。当爬虫软件对于互联网上的网页进行浏览时,如果网页不能正常打开也不会立即影响到搜索引擎对于该网页的排序,但是会产生渐变的影响。这也是为什么用户在通过搜索引擎搜索关键字时,有时候搜索引擎提供的网站不能正常打开的原因。因为该网站虽然不能正常打开了,但是由于爬虫软件对于该网页有历史浏览记录。所以网页不能正常打开的情况下,网页的排序会逐渐落后,直至爬虫软件最终不再访问该网页。
        2)页面的内容设置。之前关于爬虫软件的工作原理进行过介绍。爬虫软件在对网页进行访问和分析的时候会采用一定的规则进行分析。因而不适应爬虫软件分析规则的网页则不
会将网页需要表示的主题和内容反映给爬虫软件。因此搜索引擎在进行匹配时也不能与用户实际搜索的关键字进行匹配。
        3)超链接的错误。爬虫软件在进行网页分析时,第一时间就会处理网页中的超链接。因此超链接将直接影响到爬虫软件的效率和分析结果。如果网页中的链接出现错误或者死链接,那么爬虫则会陷入死循环中。在影响爬虫软件运行效率的同时也会影响到该网页的排序。
        2.2 关键词位置与频率的优化
        目前互联网网页的传输是依靠网络协议进行传输。而对应的网页编码和解码则是需要根据既定的规则来进行编码和解码。为了保持互联网跨平台共享信息的优点则需要采用一种通用的语言可以让各种不同操作系统或者平台的软件都可以较好的解释网页。因此则出现了HTML语言,这种语言是一种标准化的对象语言。其特点与XML数据库相类似,HTML语言的核心思想是将网页中所有的元素都转换成一个个不同的对象,因此在对网页进行解释和编码的过程中则可以非常明确的指导不同元素所代表的内容或者在网页中的位置。
        从目前的网页组成来说,一般都会存在几个主要的部分。第一是title,即整个网页的标题。第二则是body,即整个网页的主要部分,这这个部分包含了网页中的主要内容,包含文字的叙述内容,或者是图像化的图片内容等等。通常来讲爬虫软件在对网页进行分析时,提取其关键字主要是依靠两个方面来进行关键词的判断,第一部分就是根据title中的内容来分析该网页的主体,第二部分则是根据网页中body里含有的文字叙述来进行分析。
        另外,爬虫软件在对网页进行分析时,除了对于title的分析以外还会对于网页中文字叙述进行分析。目前在这方面的分析算法中比较常见的方法则是关于文字处理的聚类算法等等。其中较为典型的则是DF-IFD算法。其原理是通过对于将不同网页中的关键词进行统计,而后在大量统计的基础上建立不同类型文档的典型特征向量。通过不同网页中关键词出现频率的对比来提取最能表现一个网页主体的关键词,并将其作为其特征向量的维度。因此从这一方面来讲影响网页与搜索关键字排序结果的另一个主要因素则是关键词出现的频率。
        关于通过提高频率来改变网页排序的方式较为常用,因此也出现了针对这种办法的惩罚措施。一般而言,通过提高频率来改变网页排序主要是依靠关键词的不断堆砌,而惩罚措施则是针对这种关键词的堆砌进行的一种惩罚。但是在合理的范围内增加关键词在网页中出现的频率依然可以改变该网页在对应关键词下搜索时的排序结果。
        2.3 链接优化策略
        超链接是爬虫软件在抓取网页的主要途径。如果整个互联网上导入到该网页的超链接越多,则该网页被网络爬虫爬过的几率则会大大提升,其排序的结果和权重也会相应的越大。这种方式被称为外部导入方式的链接优化。其次,对于同一网站而言,其内部的链接如果足够优化,那么网站内部的所有页面之间都可以方便的进行互相访问,而对应的不同网页之间也会存在包含站内其他页面的超链接地址,即在站内通过合理的外部导入实现了链接的优化。并且网络爬虫在对网站进行评价时有其一套评价办法,同一网站的评估可以通过pagerank值来进行评估,并且在页面跳转的过程中可以将pagerank值直接带入到站内的其他页面中。
        3 总结
        本文对于搜索引擎的工作原理进行了介绍,指出网络爬虫程序是搜索引擎运行的关键。因此针对网络爬虫程序的优化方法可以达到优化网页在搜索引擎中排序的目的。由此本文对于网络爬虫软件的运行原理以及影响网络爬虫软件抓取网页的主要因素进行了分析。最后从关键词优化和链接优化两个方面提出了搜索引擎优化的主要办法和措施。而这两个方面的具
体措施和方法则是下一步需要研究的重点。
        参考文献:
        [1] 陈伟雄.基于元搜索的中文搜索引擎的研究与实现[M].北京:清华大学计算机科学与技术系,2014.
        [2] JiaweiHanMicheline Kamber.范明,孟小峰译.数据挖掘概念与技术[M].北京:机械工业出版社,2013290-295.