本文系国家社科基金项目“图书馆古籍文献的数字人文开发与应用模式研究”(17XTQ003)研究成果之一。收稿日期:2021-11-22数字人文视角的古籍数字化开发和利用研究
覃 熙1,欧阳剑2
(1 广西民族大学图书馆,南宁 530006;2 上海外国语大学,上海 200083)
摘 要:文章通过梳理人文学者利用数字人文范式进行古籍研究的视角,拟探寻数字人文的古籍开发及利用路径。提出了遵循算法驱动的数据库开发、数字人文基础设施构建、研究平台的构建、数字研究环境的创造的方法,体系化地完成古籍开发和利用。
关键词:数字人文;古籍数字化;基础设施;研究环境
梁朝伟演的电影中图分类号:G256    文献标识码:A   文章编号:1003-7136(2022)04-0046-06
ResearchontheDigitalDevelopmentandUtilizationofAncientBooksfromthe
PerspectiveofDigitalHumanities
QINXi,OUYANGJian
Abstract:Bysortingouttheperspectivesofhumanitiesscholarsusingthedigitalhumanitiesparadigmtostudyancientbooks,thispaperintendstoexplorethedevelopmentandutilizationofancientbooksindigitalhumani
ties Itproposesthemethodsofdatabasedevelopmentdrivenbyalgorithm
,constructionofdigitalhumanitiesinfra structure,constructionofresearchplatform,andcreationofdigitalresearchenvironment,soastosystemat
icallycompletethedevelopmentandutilizationofancientbooks Keywords:digitalhumanity;digitizationofancientbook;infrastructure;researchenvironment
0 引言
中华文明源远流长,丰富的古籍文献涵盖语言学、历史、文学、社会学、考古学、艺术、政治、经济等
领域。传统的古籍研究主要是探索古籍的文献源流、考订版本、编录存佚、校勘真伪、音韵训诂、辨析
义理等[1];传统人文学科的研究路径也往往是预设
问题—收集及整理材料—对材料进行思辨和诠释。数字技术进入人文学科研究后,大量古籍资料被数字化,形成规模庞大的数字化文档资料、数据库和检索系统,这些数字学术资源逐渐成为古籍文献研究的基础。研究者们通过传统的研究方式难以适应数据的鉴别、理解和应用,依靠人力难以从数据中挖掘出更多有效的信息,也造成古籍研究中知识缺乏逻辑性的实证依据,研究成果存在局限性,数字人文的引入给传统的古籍开发利用提供了新的研究方法和
研究范式。数字人文是借助于计算机技术,对已有
的数字化古籍文献进行分析以及呈现可视化的结果,并进行诠释,将研究过程从低效、费时的资料收集整理工作中解放出来,提供全新的研究方法,提高研究效率,通过设计、计算、分析、可视化等手段重塑和改造人文知识,提供更多差异化、规律性、宏观性、趋势性研究的可能和线索,使学术领域实现“轮廓
重绘”
[2]
。数字人文利用信息技术对文献的深度挖掘、文本处理、地理空间分析、社会网络分析、体分析和统计分析,将成为古籍研究的一种新范式,以及新的思维理念及方法。
梁朝伟和汤唯是真做>陈慧娴个人资料简介1 基于数字人文的古籍研究视角
数字人文的出现为古籍研究利用提供了新的空间,人文学者古籍研究视角为古籍的数字人文开发和利用提供了指导方向。本文拟通过梳理人文学者
利用数字人文范式进行古籍研究的视角,探寻基于数字人文的古籍开发和利用路径。通过梳理,我们看到学者们以远距离阅读—时空多维度—数据融合
的方法论开展古籍研究,如图1
。图1 数字人文范式下的古籍研究视角
1 1 远距离阅读的古籍研究视角
数字化古籍的快速增长给学者带来了巨大挑战,研究所涉及的资料大大超出一般阅读所能处理的范畴,传统阅读的方式是线性、深度、细读文本内容、分析主题意旨。随着人文计算的兴起,人文学者
的数字人文研究模式也不断演进,从以“读”文献的
方式逐步发展为“分析”文献,将文献中的描述内容
转变为可分析的数据。2
000年,斯坦福大学意大利裔文学批评家F
rancoMoretti首次提出远距离阅读(
distantreading)的概念,这个理念后来被广泛运用在利用计算机算法对文学书籍进行分析上[
3-4]
。当远距离阅读理论与文本可视化技术结合时,文本信息不仅可以通过图像化简,还能使用空间化表
述,极大地提高了理解与研究的效率,计算机背景下的阅读打破了原来的线性阅读方式,阅读路径更加自由。
随着大数据的广泛应用,基于大数据的古籍也不断出现远距离阅读,台湾学者建制了《艺文类聚》《太平御览》两部官修类书的全文资料库,并具体分析了整体分类结构、比重和条目内容的差异,以及两部类书引用书籍的时代分布,尝试勾勒出中国唐宋
士人知识结构的变化轨迹[
5]
。欧阳剑通过整理大规模古籍中“学”和“术”的出现频率,验证中国“重
学轻术”的传统思想观念[6]
,更多案例见表1。
表1 远距离阅读的古籍研究视角案例
研究目的
方法
工具
分析了人类语言、文化及社会演进等[7]基于词频的文本分析及可视化
GoogleNgram词频统计器
诗人风格分类[3]、判断真实作者[
4]文笔风格分析、聚类分析[
8]
语料库、词频统计和词语搭配的分析
某文学传播空间分布、内容热点、传播特
9]研究者的空间分布、研究成果频次统计CiteSpace的地理可视化功能和GPSVisualizer网站、信息可视化工具VOSviewer年代知识结构变化轨迹[
5]
整体分类结构、比重和条目内容的差异最长相同子序比较法、类书对应查询系统挖掘呈现宋词文学流派特征形态、规律[10]
关键词词云分析、词作关键词聚类分析NVivo11软件
理性对联[
3]对仗词汇统计分析、词汇共现分析—通过语言元素分析文学形式变迁,某种体裁
文学发展的规律[
4]
介词、冠词、标点符号等统计分析
语言学词语首见年证[
11]
查看文献全文并进行字词定位分析与判断大规模古籍语料库、微观散点图
关键词与高频连带关键词的分析,验证思想
观念[
6,12]词频统计、共现词分析
历史人事社会网络分析[13]
社会网络分析
WouterDeNooy社会网络分析技术、Pajek软件
挖掘历史事件真相[14]
“焦点+上下文”可视化分析
报纸词云、维基词云、图书词云等计算机文本自动分析、聚类
1 2 时空多维度下的古籍研究视角
空间和时间的依存关系表达着事物的演化秩序,时间及空间上的比较分析法也是古籍研究常用的分析方法,从事物的发展及变化进行立体式的描述。传统人文研究侧重于历史分析,二十世纪五六十年代开始,学者意识到过去的研究过于偏重时间性而忽视了空间性,人文社科领域出现了整体性
“空间转向”[15]
。随着GIS技术在科研领域的普及
应用,人文学科研究开始变得愈加理性和立体,作为一个包含地表空间信息的综合信息系统,其数据采集、时空数据建模、多层地图叠加等功能,可以对古籍史料中的各种空间数据和空间属性进行采集、存储、运算、统计、分析、显示和描述,在史学研究中实现数据结构化和有效整合、数据可视化,有利于研究
者探索真实历史与社会自然之间的关系以及规律。古籍文献经过定量分析往往能从时间及空间角度挖
掘出一些语言现象、历史事实、风俗面貌、社会文化及地理等“不期而遇”的发现,不断有新的研究成果涌现。台湾地区“中央研究院”的“中华文明之
时空基础架构”(以下简称:
CCTS)比较系统地体现了古籍时空分析视角,其专题研究成果或计划不断创新,如黄河泛滥分析、明清江南市镇研究、汉墓分布研究、“中央研究院”的《傅斯年图书馆人名权威资料库》、苏轼文学地图、郑和航海图、唐代交通图、
《读史方舆纪要》地名研究、明代卫所时空变迁研究
等[
16]
。GIS技术引入古籍文献研究更大的惊喜是能够以虚拟景观以及空间分析的方式实现历史重
现、复原,通过利用C
CTS实现汉唐长安郊外复原图;利用中外文文献、地形图、卫星遥感图以及实地考察,结合“丝绸之路地理信息系统”精准复原玄奘
曾志伟蓝瑛洁怎么回事
帕米尔段东归路线[
17]
;应用数据库《3D实景莫高窟》可将所需的敦煌壁画原貌整合,构建“数字敦
煌”“虚拟洞窟”[18]
,更多案例见表2。
表2 时空维度下的古籍研究视角案例
研究目的
方法
数据和工具
汤显祖行踪路线图、杜甫行迹图[18]人物行迹和活动地点可视化人物信息、年谱数据、地理信息汤显祖人物关系[
18]人物关系点线化
人物信息、可视化工具汤显祖人物关系地理分布可视化[18]
社会关系地理分布可视化人物信息、地理信息宋代处州家族体梳理[
19]
梳理人物墓志资料
人物信息、地理信息黄河泛滥分析、明清江南市镇研究等[
16]
以时间、空间为主的资讯管理、分析、综合与呈现
历史事件数据、
地理信息分析武则天历史评价[
6]统计文献中对人物称谓的变化、朝代分布、文献分布、地理空间分布
史料数据、可视化系统、词频分析、空间聚合分布
汉唐长安郊外复原图、全息《清明上河图》、“威尼斯时光机”项目、玄奘帕米尔东归路线
的复原[17]、《3D实景莫高窟》
[18]
历史再现、复原
史料数据、地理信息、全息视频技术、绘图软件
  更多研究结果则通过时空维度进行可视化,利用历史数据,借助地理信息系统绘制时空图。如通过古籍文献作者的地理空间聚合分布发现,文化中心地理分布影响因素主要是都城、文明程度、经济及
交通等[6]
;通过文学作品的词频统计和空间分布可视化,展现古籍文献作者的时空分布,为文学作品研
究者提供时空二维度结合的分析视角[9]。也有学
者从史料中汇总抽取出人物及关系数据进行变量分
析、实证分析,研究出宋代政治人际网络的分布特征、核心政治人物在网络中的角与地位情况、不同时段与时期政治网络的合作与冲突如何相互影响与
演化[20]
。时空多维度下的古籍研究视角引起了学者的广泛关注,时空数据可视化已成为古籍研究者常用的方式。1 3 数据融合的古籍研究视角
跨资料库检索是人文学者对数字化古籍的基本
需求[21]
,跨资料库检索能帮助研究者发现人工难以
发现的文献各部分内容、人物、事件之间的内在关
何炅和李湘联,减少了不同学科研究者在阅读与理解跨学科文献过程中的精力损耗,促进了跨学科研究的发展。跨资料库检索只是古籍开发与应用的初始阶段,随
着量化分析及跨学科研究的增长,多视角、多维度研
究早已嵌入到人文学科研究中,多元、多角度的分析在人文学科数字人文研究中不断增多。多维度分析要求数据能覆盖不同研究视角,将不同来源、不同类型、结构化和非结构化的数据在逻辑上或物理上有机地关联,能够辅助人文学者从多层面、多角度来揭
示问题[
22]
。多维度的对比分析及古籍内容挖掘是人文学科中数字人文研究所急需的,人文学者可以
进行不同知识运算,包括聚类、筛选、比较、统计、推理,发现新的问题与现象,寻隐藏在数据中的模式、趋势和相关性,对于作为史料来源的古籍文献来说,通过文献记载的史实对比,可以考察出文献原始出处及后续的变异。
不同古籍数据的融合和链接,不但是减少重复建设和提高有效利用的最佳方式,而且有助于学者实现对大规模、连续性、系统性史料的分析,发现多种古籍文献信息之间的相互关联,对各种历史和社会进行统计描述及彼此间相关性的分析,从而推动历史研究。清代《缙绅录》登记了历年全国官员的信息,对分析清代国家的官员任命与政治体制十分关键,因此,构建《清代缙绅录量化数据库》的团队
发现该数据库非常有必要和李中清教授的《清朝玉牒数据库》、台湾地区“中央研究院”的《清代职官数据库》、《中国历代人物传记资料库》中的清代进士数据以及厦门大学《清代举人数据库》等链接,能
够极大地扩展数据库的分析范围与深度[
23]
。数字化古籍文献能对文献所蕴含的多重信息进行多角度地揭示和组织、深度地开发,使古籍文献不再是平面的、孤立的资料,而是一个立体的学术知识库。实现大规模古籍数据多元化、整体化的研究对比与分析,用大数据的研究理念探索古籍文献研究已成为一种趋势。古籍作品、编撰者、时间年代及地理信息等是古籍知识的重要组成部分,可以从书目、时间、地理、人物、版本类型、编撰方式等多维度分析,为研究者从多个维度提供分析角度。集成与融合的数字化资料与数据是数字人文研究的基础。2 古籍数字人文开发及利用路径
数字人文为数字化古籍的深度开发与利用带来了新的视角,促进了古籍开发及利用。基于数字人文的古籍研究视角,我们可以梳理当下及未来古籍数字人文开发利用路径,遵循算法驱动的数据库开发、数字人文基础设施的构建、研究平台的构建以及数字研究环境的创造的方法论,体系化地完成古籍火炬之光2法师属性
开发和利用,如图2
。图2 基于数字人文的古籍开发及利用路径全景图
2 1 算法驱动下的古籍数据库开发
马创新等认为古籍数字化的开发分两个层次:表层与深层。表层主要包括古籍纸质文献扫描及OCR识别、计算机古籍目录及内容数字化索引的建立、古籍文献大字符集输入与显示、古籍全文的网络发布及全文检索等;而深层则主要包括古籍著录及元数据标准建立、古文内容标注和关联、超文本的立体展示及利用环境、古籍领域本体及知识网络的构
建、智能的知识检索及深度知识挖掘[
24]
。按照这两个层次来看,显然,古籍文献表层数字化已取得丰硕成果,国内古籍数据库建设硕果累累,《汉籍电子文献资料库》《雕龙中国古籍全文数据库》《中国基本古籍库》《中国金石总录》等具有代表性的成果相继
出现,极大地促进了古籍的开发利用。这些古籍数
字化工作可分成两种形式:一种是古籍文献的图像扫描数字化,也可称为图片数字化,这种形式的数字化成本低,仅仅是纸质古籍的替代品;另一种是基于古籍文献的文本化,即把纸质上的文献文字数字化输入计算机中,同时配以扫描图片,且提供文字拷贝等,也叫作文字数字化。目前的古籍文献数字化以第二种形式为主。
古籍文本可视化分析与挖掘属于深层次的开发,深层次的古籍文献开发主要是古籍知识元标注及知识网络构建、古籍文献之间的关联、文本内容分析及挖掘等。近年来,随着数字人文范式的引入,以算法思维为研究导向的古籍数据库不断出现,古籍数据库也从单一数据库建设发展到具备算法特性的综合性数据库。传统的量化分析通常是对单一数据源进行深入地追踪和分析,数字人文研究则特别强调
人文数据的重用性与多视角的取样和计算分析,形成多维算法分析数据集是数字人文研究必须面对的一
个瓶颈[
22]
,因此,增加算法思维和多视角分析将是古籍数据库发展的必然之路。2 2 古籍数字人文基础设施的构建
知识单元的细粒度化、知识组织的语义化、知识呈现的可视化,为人文研究提供了前所未有的强大
工具[1]
人文学科研究综合性、交叉性成为一种趋势,单一的数据库已难以满足研究的需要,数字化古籍文献整合势在必行,打破古籍数据库建设“小、
散、乱”
[25]
、各自为政的模式,形成学术共识。学者们提出了古籍数字人文基础设施构建,不但避免重复的基础性工作,而且能将零星的史料片段按照一定的算法重新组合、排列,对蕴含在古籍中的知识进行多元重组,实现知识元关联,形成一个具备算力的多维知识网络,进而促进古籍分析工具及平台的开发,实现从数据资源到数字研究环境的转变,逐步摆脱古籍“重藏轻用”的建设思想。
数字人文基础设施是一种支持人文科研活动的基础设施,是数字环境下开展人文研究而必须具备的基本条件,包括全球范围内与研究主题相关的所有文献、数据、相关软件工具、学术交流和出版的公
用设施及相关服务等[
26]
。此类数据设施已经超越基础数据库的范畴,更符合“研究工具”的概念,它与数据库最大的差别在于以下几个方面:一是数据规模,数字人文基础设施往往有多个数据库的关联
运用,以U
RI为数据标识,以资源描述框架组织发布关联数据。二是数据处理程度,对古籍文献的基础数据(人、地、时、事)进行模型化、本体化,对其内
容进行描述、组织和揭示,并提供分析处理和可视化工具,实现以数据为基础、以方法为导向的智慧型服务。三是引入人文学者研究思维,提供时空角度的
多维关系挖掘,引入地理信息系统G
IS辅助历史信息整合,提供时空分析、社会关系分析等数字人文研究常用功能,有利于研究人员从更高尺度以及更广阔的维度提出问题。
目前,数字人文基础设施建设也引起了学界的关注,数字人文基础设施建设项目也如火如荼。上海图书馆开放数据平台以关联数据的方式向互联网公开发布其数字人文项目所组织的基础知识库(人、地、时、事、物)、文献知识库(家谱、手稿档案、古籍等)、本体词表和数字人文项目建设过程中所用到的
各种数据清洗和转换工具[
27]
。CCTS是台湾地区“中央研究院”创建的基础地理信息系统,以中国地图为基础底图,整合了“中央研究院”的汉籍电子文献系统、《清代粮价资料库》《明清地方志联合目录资料库》等专业应用系统或数据资料库。此外,“中央研究
院”还建立了一个台湾区域研究地理信息系统T
H CTS[28]。王兆鹏教授领导的《唐宋文学编年地
图》
[29]
研发团队结合考据编年方法和GIS技术,将唐宋文学作品及相关的文史数据整理发布在搜韵网上,形成了可查询交互的编年地图。以上都是优秀的数字人文基础设施范例,但仍然只是古籍开发的冰山一角,更多领域有待开拓。2 3 古籍数字人文研究平台的创新
基础数据库及数字人文基础设施很大程度上解决了人文研究数据缺乏的难题,但并没有解决数字人文的应用问题,而数字人文研究方法主要通过应用工具及平台的建设来实现。随着越来越多的人文数据融合,基于数据融合的古籍多维度数据平台应时而生,古籍数字化产品慢慢由资源库向研究平台转变,以满足人文学者不断提出的辅助其研究的新
需求[30]
,并提供数字人文的相关工具与技术,包含链接开放资料、国际图像互操作架构、中文古籍图像文字辨识技术、命名实体识别技术等。其与数字人文基础设施的本质差别在于:嵌入数字人文学者需要的理论方法,提供人文学者需要的研究及分析手段、算法,直接服务于人文学者,实现基础数据与人文学者的无缝连接。典型代表有台湾地区“中央研
究院”数位人文研究平台[31]
、DocuSky数位人文学
术研究平台[
32]
、欧阳剑“大规模古籍文献可视化分析与挖掘”项目[11]
、Gale数字学术实验室研发的基
于云平台的历史文献分析平台[
33]
、HathiTrust研究中心的数据胶囊项目[
34]
等。数字人文研究平台需要不断创新,使人文研究
者不必再步步仰赖信息技术专家。为人文学者提供开源链接与友善互动的数字人文研究环境,提供个性化的服务、协同合作的机制、开放的资源,克服人文数据匮乏的难题,使得人文学者自主且自由地融合数字人文技术进行相关人文研究。同时,算法能力应作为古籍开发者和利用者的重要素养被重视。2 4 古籍数字研究环境的创造
随着科学技术的进步和数字时代的到来,新的基础设施硬件及软件在不断更新与迭代,数字学术需要开辟一个新的世界,在这种环境中借助于更丰富的媒体,为新的数据和信息密集型、分布式、协作、跨学科的研究提供良好条件。随着古籍数字化、数据化的不断增长,数字学术需要将资源、平台、研究等进一步整合到数字基础设施中,形成古籍数据库、人文基础设施、数字人文研究平台、数字交流共生的复合体,为学者提供全面研究某项议题的时空保障,逐渐成为学者向同行介绍新思维方式的重要途径。
首先,古籍数字研究环境突破了传统的协作模式,无论是学术成果的出版,还是传播,传统的学术圈基本上面向的是一个比较封闭的环境,研究者与出版商及传播渠道都是分离的,而新的数字技术环境及相关技术要打破彼此之间的壁垒,将在线协作古籍校勘、注释等应用于古籍开发与利用中。其次,从数字研究环境上要突破传统的交流模式,适应人文学者交流习惯的发展,服务于不断增多的人文学者的数字交流行为,创造出未来的古籍数字研究环境。3 结语
数字人文的出现促进了人文学科与技术的融合,为古籍数字化的深度开发与利用提供了新的理念与独特的创造性思维,促使新的人文学者古籍研究视角出现,也在不断地推动新的古籍开发与利用方式。古籍的数字人文开发及利用经历从早期数据库建设到人文基础设施、数字人文研究平台的演进路径,实现了从数据资源到数字研究环境的转变,逐步摆脱了古籍“重藏轻用”的建设思想。数字人文范式下古籍文献研究的重要组成是数字化资料集成融合以及计算机分析技术,因此,古籍开发与利用将继续沿着“大数据”“大科学”的数字化研究环境不断发展。
参考文献:
[1]刘炜,林海青,夏翠娟.数字人文研究的图书馆学方法: