16949作者:刘⽯(清华⼤学⼈⽂学院教授);李飞跃(清华⼤学⼈⽂学院副教授)
内容提要:⼤数据技术引发了传统⽂献的⽣产⽅式创⾰、结构形态新变和获取⽅式拓展,⽂献的碎⽚化、标准化、结构化与可视化形成各种⽂本集、数据库等“宏⽂本”“超⽂本”,促进了⽂献的关联与知识的再发现。⽹络分析、⽂献计量、主题模型等⽂本信息技术的应⽤,可以⾰新传统⽂献学的实践路径,增强传统⽂献研究的整体性和实证性,催⽣新的研究范式,促进传统⽂献学的现代转型。当代⼤数据技术改变了我们对传统⽂献学的认识⽅式和把握尺度,反映了⼈们对知识挖掘、组织、管理与再造能⼒的追求。
潘玮柏国籍⽂献素指载有历史信息的⽂字资料,今已成为“记录有知识的⼀切载体”的代称。在甲⾻、⾦⽯、简帛、纸张之后,⽂献进⼊了数字化时代。数字⽂献是以数字代码形态存在,依赖计算机系统存取和传输的⽂本、图像、⾳频、视频等⽂献。⼤数据时代的新⽂献形态如电⼦⽂本、⽂本集、数据库、知识库、系统平台等,在体量、结构、组织、管理等⽅⾯呈现出与传统⽂献不同的特征。⼤数据的⽬的是将海量数据转化为知识(Big Data t o Knowledge),美国塔夫茨⼤学古典学教授克雷恩曾提出过⼀个发⼈深省的问题:“你怎么处理100万册的图书?”⼤规模⽂献整理、⽂本挖掘与知识转化不同于⼩样本研究,⼯具和模型的使⽤是⼤数据研究与传统⽂献整理及研究⽅式的最⼤区别。
传统⽂献学,前⼈⼜称“治书之学”,亦即围绕古代典籍进⾏搜集、整理与研究。它在长期发展过程中,形成了深厚的知识积累、相对确定的研究范围、⾃洽的理论体系和成熟的研究⽅式。⼤数据技术长于数据挖掘,⽽传统的⽂献研究者实际上也是“数据挖掘者”,只不过挖掘的对象和使⽤的⽅法不同⽽已。⼤数据技术引发了⽂献⽣产的创⾰、⽂本形态的新变和知识获取的拓展,最终将促进传统⽂献学的现代转型。审视⼤数据技术与传统⽂献学的通变,不仅可以发明⼤数据技术下新型⽂献学的实践功能,也可借此认识⼤数据技术与传统学术的深层关联。
⼀、⽂献⽣产的创⾰
传统的⽂献⽣产⼀般包括写抄、刊刻等⽂本制作,校勘、辑佚等⽂本整理,注疏、考辨等⽂本研究。与传统⽂献研究相类似,⼤数据研究同样关注⽂献整体特征和内在结构特征。不同的是,传统⽂献学的主要处理对象是较为固化的⽂献形态和具体知识,⽐较重视经验与思辨;⼤数据研究主要处理多种类型的⽂献形态和海量知识,更依赖⼯具与技术,例如⽂本分词、词性标注、命名实体识别、句法分析、特征提取、情感识别、⾃动纠错、可视化呈现等,同时往往会对⽂本库及其分层⼦库的数据来源、数据量、数据格式、输⼊机制、参数指标、算法⼯具等进⾏说明,其对⽂献的处理⽅式和功能建构也因⽽极⼤突破了传统⽂献的⽣产⽅式,实现了⽂献知识的再发现与再⽣产。孙红雷被小沈阳揍了
(⼀)通过分词、标引、词向量等技术实现原始⽂献的碎⽚化与颗粒化。古代汉语分词是将汉字序列切李莉娜 非诚勿扰
广州小吃分成单独的词并按照⼀定规范重新组合成词序列。古籍通过分词、标引、抽取等⽅式,⽣成各种新的知识单元,产⽣
发布评论