网页归档系统的设计与实现

【摘要】伴随着计算机科学技术的不断发展，网络应用层面也显得越来越广泛。并且随着更多的人需要通过互联网浏览网站进行查询并获取信息；所以导致了网上各种类型的信息日益曾多并且不断的更新，那么如何才能保存这些转瞬即逝的信息呢？因此网页归档系统便成为了近期的热门研究项目，本研究课题为网页归档系统；主要研究的是网站信息的保存与回放，以便能够在未来的某天进行历史信息的查看与研究。

由此看来，网页归档技术正在稳步的发展中，其前景是无线广阔的，这不仅仅是因为其项目内容较新，更多的原因是因为网络的疯狂普及，以及人们的网络生活的日渐丰富，这使得网络资料将会以一种可怕的速度一直增长下去，以目前的状态来看，纸质文档的飞快减少，以及电子文档的飞快增加，网页归档将成为一个必然的趋势，其采集的内容以及采集范围将会在未来成为一个必不可少的重要资源库。

本网页归档系统采用B/S体系结构，基于JavaWeb环境进行开发，主要使用Java语言，结合SSH框架、Mysql数据库和HTML、JavaScript、CSS等技术。本文从系统需求分析，系统设计，功能模块的实现和测试等方面详细的介绍了网页归档系统中的网页采集模块中的各功能模块。

【关键词】网页归档；数据库；网页采集；采集范围

一、绪论

（一）课题来源（可改为设计背景）

世界信息在不断的变化着，人们的生活方式也在不断的进行着各种各样的改变，计算机和互联网已经家喻户晓，并慢慢普及起来，起初我们可以了解到那种造价昂贵的占地巨大的巨型计算机，到现在的每家都会有一台或者更多的家用PC计算机，并且到现阶段，互联网早就已经成为了人们日常生活中所不可或缺的一种“生活方式”，也正是因为互联网占据了我们日常生活工作中非常重要的一部分，因此，关于生活，工作，以及娱乐等各方各面的内容飞速的在互联网上传播着，这使得几乎大部分没有被纸质文档所记载保存的文献都成了一种快速文化，及时响应，及时获取，及时体验，然而在这之后，那些曾经帮助我们完成研究，完成工作的文献，新闻，以及其他各种资料，大部分都会消失的无影无踪【1】。例如网站的关闭，网页的更新，新鲜内容的不断出现，总会不知不觉的把陈旧的内容覆盖掉；并且由于每天通过互联网所传播的信息量是十分巨大的，其数量之庞大是我们无法想象的，而这庞大的数据里边不免有一些重要的新闻资料或者重要的科研文献等，这些重要的资料或文献却往往会因为网络信息的飞速更新，新文献的不断推出，新网站的

不断建设，而慢慢被遗弃，被忘记；而这时候如果需要再次对这些旧文献进行回访，查看，往往已经不知去向；因此我们迫切的需要对这种有价值的网络文献进行较为完善的保存，以便在以后的某个时间，我们可以再次查看，并加以利用。

总而言之，纸质文档的保存随着科学技术的发展，已经渐渐的变为历史，而电子文档的问世以及普及，导致了电子文档的保存变得越来越重要，加上最近网络和计算机的普及，网页的传播与更新正在以难以估计的方式在发展着，各类应用与信息发布都是以网页形式出现的，网页已经成为当今信息传播的主要方式。

所谓网页，它是一种通过互联网来传播，通过浏览器来编译并呈现给所需用户的一种可视化的网络文件。一般情况下，它会分布在世界各地，隐藏在地球上某一个角落中的一台PC机上，就好比你现在正在使用的PC机。可是到目前为止，由于人们一直所使用的都是纸质文档，而对于网络文件，并没有像纸质文档那样被认定为正式的文档。并且从目前网页归档这个项目的发展上来看，很多国家并没有通过国家档案馆来实现该项目，大部分项目的实现都存在于图书馆，虽然如此，但绝大多数国家都会以“归档”这个字眼来命名这个项目【6】。目前来看，国内学者也在积极的探讨关于网络文档是否该归为文档一类。而国内的许多学者都做出了对网页文档的研究，并且多数研究都倾向于网页也可以作为文档进行保存。

可见，此类学者们都普遍认为，网页具有最原始的记录特征。网页的最原始的记录特征，指的是网页中的文字，图像，音频，视频，等各种各样的信息。它所记录的一切内容，都是人们网络生活或者真实生活中的信息，而这一特点，与档案的本质是不尽相同的【7】。所以，许多国家都开始着手于对网页归档系统的研究。

治廷

目前，美国对这方面的研究是各个国家中最靠前的，而我国对于网页归档系统的研究仅仅是刚刚起步的状态，因此，我们国家对于这方面的研究就显得更加的迫切【9】。

韩国自杀女星（二）研究领域的发展现状

首批网页归档系统的研发是在外国发起的，并且至今已经时隔十几年之久，因此，该领域的发展，外国更为先进一些。外国的项目已经十分的成熟，虽然其中也包含一些还未得以解决的问题。虽然我国刚刚起步，但有一个好消息就是，因为开放内容的运动发起，使得很多网页归档系统的项目都成为开源项目，这使得我国虽然起步较晚，但实质上在项目研发的进度上并不会过于缓慢，许多的爬虫框架，例如Heritrix等，源代码都是完全对外开放的，所以这个项目，在全球形式看来，它

在技术层面已经走出了试验阶段。另一方面，法律问题，由于网页归档系统的开发与实现，会涉及到文档版权等其他跟法律有关的内容，所以如何让这个项目得到应有的法律保护也是一个比较重要的问题【10】。现今，没有法律的明确规定下，例如没有法律明确规定网页归档系统所采集并保存的各类文档都为非侵权与合法的，正常情况下都会采取与版权所有人进行协商的办法，在协商成功后才能对网页进行相关的归档保存或公开展示，如果处理不当，很可能会导致被诉讼的可能，这也是网页归档系统所面临的一项难题。

那中国的发展状况是如何的呢？中国早在2002年对该领域进行了初步的探索，北京大学所研发的网页

归档系统为：“Web 信息博物馆”，它采用的采集方式为广泛式采集，其使用的开源爬虫就是Heritrix爬虫；而中国目前一共有两个网页归档系统，另外一个项目是Wicp，而其中Web信息博物馆是对外开放的，Wicp则不是【12】。

网络是在不断的发展进步的，最早，我们可能只能从网络上获取文字类信息，但随着网络的发展，音频，视频，等一些更加人性化的信息也逐渐的普及起来，这种信息类型的扩展，使得网页归档系统能很好的与网络图书馆的内容重合；因此很多国家借此特性，对网页归档系统和网络图书馆进行了很好的整合。二者共同合作建立的在线图书馆。例如谷歌+AlexaInternet，AleaxInternet+美国国家图书馆等等，它们之间都存在有合作关系，会互相捐赠所采集的各类资源。上文中我们提到了法律问题，目前看来，从最初的项目建立到现在为止，各个从事该项目研究的国家，在法律上也在做着相应的变化。其中就有很多的国家已经实现法律规定保护网页归档，这种立法规定，在很大程度上为项目研究解决了一大难题，使得项目更容易发展起来【13】。

总体来讲，关于国内外发展状况可以分为以下几点进行分析：

采集对象上，我国的“Web信息博物馆”和另外一个网页归档系统，由于需求不同，所以在采集对象也有所区别【14】。“中国Web 信息博物馆”项目目前一直致力于静态网页的归档保存。WICP 项目最初的需求规定是关于网络信息资源的归档保存，所以其在采集对象上也是对于比较有特的一些主流网站，主要包括高等学校、电子期

刊、政府网站、企业网站各种具有代表性的网站及以及其他具有代表性的网站。

采集资源类型上，对于网页归档项目的研究，我国启动研究的较晚，不过由于外国在这方面的技术在不断的成熟，所以我国在研发的过程中也借鉴了很多其他国建的项目内容，项目经验，收集了其各种采集项目的有点，因此我国的网页归档系统更加的多样化，不仅仅局限于文字，其中音频，视频，图片，等其他一系列的网络资源都有涉猎。

采集方式我国的Web信息博物馆和WICP项目均采用复合式的采集策略。以WICP 项目为例，截至2008 年底【16】，该项目广泛采集和存储了全部约8 万个政府网站、291种中文电子报纸，同时针对奥运会、新农村建设、非物质文化遗产等39个重要专题进行专题网页保存，并对其进行数据挖掘和质量监测。

美国的网页归档项目研究和实施起步较早，在法律建设、机构合作、采集策略等方面发展较为成熟；我国网页归档项目建设尚处于起步阶段，在技术、管理、政策法规等方面需要进一步探讨。我国已开

展的Web 信息博物馆项目和国家网络信息资源保存实验项目的开展已经取得一定的成果，在今后的工作中应积极吸取各国经验不断发展，明确项目主体、开展多方合作，完善法律建设、获得明确授权，完善归档流程、制定相关标准，积极促进网页归档项目的发展完善。此外，互联网企业及个人机构也应积极参与网页归档工作，见证网络发展历程，感受时代进步。

正因为如此，我国才更应该加紧开发此类系统。而网页归档系统就是其中之一。

（三）课题研究内容

1. 界面设计

界面部分，网页归档系统采用Bootstrap框架，主要涉及JS和HTML等开发技术，结合框架进行页面设计和显示的美化，有效地对页面的布局、背景和其它效果实现更加精确的控制【9】。同时使用JS来确保页面交互的及时性和真确性。界面设计本着易于交互的原则，进而实现界面美观，易读和易用等特性。

怎么学唱歌

2. 功能模块设计

（1）网页的收集和归档

通过网页收集工具中的任务设定后进行网页采集、对采集的网页内容进行设定筛选，筛选后编辑目录后进行归档的保存。

（2）网页索引、检索

把采集并归档后的网页建立索引、通过前台可以对网页进行检索查看，并把网页内容进行回放。

（3）后台管理

设置不同的用户具有不同的操作权限，并对用户可以进行授权管理和控制。后台控制主要涉及到三类功能控制：管理用户，管理员可以对用户的增删改查；角的权限管理，角可以控制那些功能和页面；对用户授予某个角的权限控制。

二、系统需求分析

（一）项目描述

1. 开发目的

网页归档系统的目的就是对指定的网站进行信息的全面采集和归档保存，通过采集时间和采集网站类

别等的不同，能够到特定网站的某个时期的全部网站信息。这样，用户就能够到自己需要的信息。也是一种全新的信息传播媒介，更加的详尽，全面，降低存储空间和易于保存【19】。

本网页归档系统，其目的就在于对现存的网页进行归档保存，以便于对日后的研究做出相应的贡献，其难点就在于由于所保存的网页种类多样，其内容也是多种多样，包括视频，音频，图片，等一系列占用硬盘空间比较大的文件，这使得在采集的时候会影响采集效率。

任娇坠楼网页归档的核心问题是归档的目的？提起归档，首先想到的是保存这个时代的重要信息，但除此之外呢？目前相对主流的认识是，网页归档除涉及重要信息保存之外还具有凭证作用，而更为重要的是，当前网页已经成为网络信息传播的主要形式，涉及社会的方方面面，已经成为社会和生活的一部分，它承载着一个时代的文化内涵。如果将网页归档仅仅限于“有用”的信息部分，在目前技术条件下不是问题，可以采用资源库方式脱离网页进行归档，但这一定位有明显不足，网页归档更应定位于“重要信息保存、信息发布凭证、时代文化承载”这个三方面，以留下历史足迹、反映社会风貌、传承时代文化。

日用百货批发2. 业务范围

网页归档系统的功能模块主要有用户登录模块，用户查询回放模块，数据采集员的采集模块，数据上传员的数据上传模块和系统管理员的后台管理模块。

我主要负责的数据采集模块，以及前台界面的设计。

数据采集模块，主要通过Heritrix开源爬虫，经过相应的环境配置，少量的代码修改，使其能完全符合我们所需爬虫的要求。其主要功能有：新建采集工作，采集内容设定，采集策略设定，采集后内容的归档保存。

新建采集任务：

新建采集工作主要包括有四个新建方式，分别是：

（1）在原有的任务上新建新的采集任务；

（2）或者，在原有的任务中，你曾经设立过断点，所谓断点，就是可以结束任务，开启新任务的时候，可以再这个断点上继续任务；

（3）第三种就是根据Heritrix所拥有的一系列的模板，直接采用其提供的模板进行任务的新建；

（4）最后一种为常用的默认采集模式。其中各种设定都是基础设定，无特殊需求，基本不用做过多的修改。

采集内容的设定：

黄瓜炒鸡蛋的做法

本采集器主要通过使用者所输入的URL对URL下对应的网站进行爬取，采集策略设定，采集策略的设定，对采集范围，采集后保存方式，采集初始URL，采集后的seeds文件，进行相关设定。

采集策略的设定：

关于采集

网页归档系统的设计与实现

发布评论取消回复

最近发表

热门文章

标签列表