【文史论丛】
社会科学家
SOCIAL SCIENTIST
2021年10月
(第10
期,总第294期
)Oct.,2021
(No.10,General No.294)
收稿日期:2021-01-18基金项目:本文为博士后面上基金项目《大数据背景下的中国多民族神话领域知识图谱构建》(2020M680682)阶段性成果;
国家社科基金重大项目《中国少数民族神话数据库建设》(
17ZDA161)阶段性成果作者简介:王京(1989-),女,山东聊城人,文学博士,中国科学院计算机网络信息中心大数据技术与应用部助理研究员,博士后,研究方向为神话学、社科大数据;周园春(1975-),江西鹰谭人,中国科学院计算机网络信息中心研究员,博士生导师,主要研究方向为数据挖掘、大数据处理、知识图谱。
数据视域下的女娲研究态势及知识图谱分析
———以中国知网2236篇论文为例
王京,周园春
(中国科学院计算机网络信息中心,北京100190)
摘要:女娲是中华民族文化祖先的经典代表,在学术界一直得到广泛关注。文章对1962-2020年
知网收录的女娲相关研究文献进行了选择与筛选,并以选定的2236篇文献数据为基础,采用文献计量学方法,运用CiteSpaceⅤ软件绘制知识图谱,对发文量年度分布、变化趋势、高频关键词、节点突发性等进行分析,提出了基于本研究数据的女娲研究热点演进规律,并根据前沿问题的分期特点将女娲研究时期划分为蓄势发展期、吸纳融合期和多元聚焦期。据此,为数据方法在社会科
学领域的应用提供相应的范例或参考。关键词:女娲神话;数据研究;计量分析;知识图谱中图分类号:I27文献标识码:A文章编号:1002-3240(2021)10-0150-06
如何从大数据角度对研究对象的历史脉络进行梳理,描绘出覆盖全领域的学术知识图谱,并围绕这一主
题展开研究趋势预测,成了摆在研究者面前的重要命题。本文主要借用数据分析的CiteSpace软
件,对特定时空内的女娲研究作出学术史分期及知识图谱分析。CiteSpace作为一款基于Java运
行环境的文献计量分析和可视化软件,主要基于共引分析(cocitation)理论和寻径网络算法(pathfindernetworkscaling,PF-NET)等,对
特定领域文献(集合)进行计量,以探寻出学科领域演化的关键路径及知识转折点,通过一系列可视化图谱的绘制来形成对学科演化潜在动力机制的分析和学科发展前沿的探测[1]
。利用CiteSpace对CSSCI、CNKI等中文科学数据库中的女娲神话文献进行主题领域发现、前沿热点分析和历史演进解读,无疑为本领域研究发展带来新的观察视角。
一、中国知网中女娲研究文献的年度分布及变化趋势
中国知网中女娲研究数据分析首先要合理进行数据的选择及筛选。运用CiteSpace对女娲研究文献进行计量分析的环节涉及了数据采集、数据处理、导入软件、功能选择、可视化生成图谱和标签提取、图谱解读等几个重要步骤。就本研究而言,文本数据的采集是分析的基础与前提,鉴于绝大多数与女娲研究相关的文献
收录于中国知网(CNKI)数据库的现实考虑,故笔者在该数据库以“女娲”为主题关键词进行检索,以所得数据涵盖“
CAJD(中国学术期刊全文数据库)”“博硕士学位论文数据库”和“国内外重要会议论文全文数据库”等三个子数据库,共获取2968条文献数据①
。这些文献数据的时间跨度为1962-2020年,
以包含作者、发文机①相关信息的检索时间截至2020年12月31日
。. All Rights Reserved.
构、题名、发表时间、关键词、摘要等信息在内的Refworks格式导出。对知网采集的文献进行发文量年度趋势分析,可以发现与女娲相关的研究以1962年的《女娲传说史实探源》[2]
和《记新疆新发现的绢画伏羲女娲像》[3]
为发端,至今已跨越了近60年,发文数量呈不断增长的趋势(见图1)。1962-2000年的发文量一直维持在高位增长状态,2000年之后关于女娲的研究成果实现了明显的数量积累,特别在2008-2017年十年间,随着稽考辨古的不断深入、田野调研的广泛开展、研究方法的持续更新、研究口径的不断拓宽和与其他相关领域的融合发展,女娲相关的研究论文均稳定在每年120篇以上,这一时期总发文量占知网收录全部文献的50.7%,内容关涉神话人物流布与传承、人物身份及族属讨论、人物关系之争和其象征意义及历史文化作用之讨论,并大有向多学科、多领域渗透之势,表现出极强的学术关注度。
图1
1962-2019
年“女娲”主题年度文献数量及年度变代量在运用CiteSpace对
上述文献进行具体分析时,考虑到人文社科类在计量分析方面的特殊性,并使得基础数据在“女娲研究”方面更加聚焦,研究首先要对初步搜集的检索数据进行筛选,通过“文献管理中心”平台将纯文学创作类、文学教育类、简讯类和其他明显与研究分析方向偏离的文献进行删选。其中纯文学创作类的文
章以抒情和传达作者情感为核心,几乎不涉及分析与特定结论,对研究的指导意义不大,如尹彦慈的《新女娲补天》。简讯类文献指的是刊登在期刊或报刊上的传递特定方面信息的简短文章,这类文章一般以介绍性、汇报性和交流性为主,缺少关键词和摘要,导致分析性和结论性的信息缺失,与研究本身的关联性较小,如李强的《基于Herstory视角下的女性服饰研究———评陶辉的专著〈性别·服饰·伦理〉》和简讯说明类文章等。还有一类文献仅借鉴了“女娲”的名号或概念,以女娲之名,论他山之石,并未涉及女娲研究之根本,所以也排除在本研究的基础数据范畴之外,如包含女娲设计元素的项目说明类文章《素心园》等。此外,有个别文章发表在不同的期刊上,为了尽可能保证数据的唯一性,通过CiteSpace软
件的除重功能对重复文献进行剔除,最终得到2236条
樊治欣数据。本研究将以这些数量的文献为基础,重点就学界关注的研究主题、不同时期的研究热点与女娲研究的发展趋势进行探讨。
二、数据中呈现出的女娲现象研究力量分布情况
通过CiteSpace对1962-2020年的女娲研究者数据进行分析。2236篇样本文献共涉及1917名
作者,对其进行作者共现分析,可以得到124个节点,10条连线,网络密度为0.0013(见图2)。其中节点大小代表发
文数量多少,节点之间的连线表示作者之间存在合作关系,由图
2可见女娲研究作者间合作强度较弱,研究者们更偏向于相对独立的研究状态。
图21962-2020年
女娲研究作者合作分析宁稼雨
王丹
盛世超刘克李祥林田兆元常玉荣刘尧汉闫德亮
郑先兴
杨利慧演员李明
徐杰舜郭名峰任振河孟繁仁龚莉何根海侯玉梅胡政平刘志琴涂平席成孝刘镁硒李凇杨东晨胡健国徐文武张多锺兴永何惠
洪淼梁留科王琼刘志敏汪小洋霍志军范子烨李名奇陈晶马世之吴童李文澜张翠玲宋建伟朱卫兵张鸿郭顺峰段友文王宪昭李秋香
李川王文杰殷光明吴晓东刘宝才张堡刘必奎袁林数据视域下的女娲研究态势及知识图谱分析/王京,周园春
—年度发文数量…
…发文年度变化量19
62年
1974年1979年1980年1981年1982年1983年1984年1985年1986年1987年1988年1989年1990年1991年1992年1993年1994年1995年1996年1997年1998年1999年2000年2001年2002年2003年2004年2005年2006年2007年2008年2009年2010年2011年2012年2013年2014年2015年2016年2017年2018年2019
350.00%300.00%250.00%200.00%150.00%100.00%50.00%0.00%-50.00%-100.00%
180160140120100806040200
. All Rights Reserved.
社会科学家2021年第10期
对本领域学者的成果展开深入分析发现,发文量在5篇以上的相对高产作者有9位,他们在女娲研究
领域拥有相对深刻和全面的见解,一定程度上可反映出本领域关注重点和方向侧重(表1)。
表1女娲研究领域高产作者发文量及研究内容
作者发文数量主要研究内容
杨利慧19女娲信仰研究、神话主义、神话的解构与重构、口承神话的传承与变迁、女娲
神话史研究
李祥林18女娲神话的海外传播、女娲信仰与文化研究、女娲对传统及地方戏剧的影响
与融揉
杨东晨14女娲身份考据、伏羲女娲文化溯源研究、陕西地区女娲遗迹考据、历史化的
女娲研究
吴晓东13女娲补天神话的历法来源、女娲神话文化价值研究、语音学角度的女娲溯源
及同源考据、神话比较研究
王宪昭8女娲母题类型研究、女娲始祖文化身份构建研究、女娲母题在多民族中的流
传与演变研究
汪小洋7汉画像石、女娲图像学研究
李秋香6女娲祖先信仰构建与族文化认同、伏羲女娲地位研究、庙会文化中的女娲
形象研究
孟繁仁5女娲崇拜、女娲神话与遗迹研究、女娲文化对特定文化现象的辐射研究
霍志军5女娲神话原型研究、民间女娲崇拜、女娲文化价值研究
三、通过数据图谱对女娲研究热点演进情况的探讨
关键词是一篇论文主题的高度凝练,论文关键词与论文主题息息相关。论文所包含的关键词信息之间
存在着一定的关联性,而这种关联可以用关键词共现的频次来表示。通常情况下,在同一篇文献中出现的次
数越多,则代表这两个主题的关系越紧密[4]。共词分析法(或关键词共现)便是通过全部文献中的词汇对或名. All Rights Reserved.
词短语共同出现的情况,来确定该文献集所代表的研究领域中各主题之间的关系,据此形成共词网络,从而
可以直观捕捉到该研究领域中的重点研究主题、研究热点、发展历程和结构演化。
通过CiteSpace的关键词共现分析功能对女娲神话相关论文进行参数和设定并进行图谱分析。将时间区
间(TimeSlicing)划定在1962-2020年,时间切片(TearsPerSlice)为1年,节点类型(NodeTypes)为关键词
(Keyword),选择标准(SelectionCriteria)设定为TopN=50,即从每个时间切片中选择最常出现的前50个关
键词进行分析,同时采用Pathfinder和Pruningthemergednetwork的修剪方式对图形进行优化,可以得到
289个节点和293条连线,网络密度为0.007。我们发现:首先,出现频率最高的前几个关键词分别为女娲、
神话、伏羲、《故事新编》、女娲神话、伏羲氏、汉画像石等,前10位的高频关键词中除“汉画像石”之外,其首
次出现时间均集中在1992-2002年。该段时间是女娲研究迅速发展的关键时期,研究主题在这段时期内已
基本定型,相关论文的数量及研究的深度与广度也有了明显膨胀与扩张。其次,“汉画像石”作为关键词最早
出现在1989年的《南阳汉画像石中的神话与美学》[5]中,在此后的15年间该关键词散见于对特定地区的葬
俗及墓祠画像石研究[6][7]、汉画特定纹样的神话学阐释[8][9]等研究中,但大多作为考古及美学研究之附会,并
没有形成明显的聚焦于女娲本身的研究主流。2004年之后,相关文献大量涌现,有59篇之多。涉及的研究
专题更加广泛,主要集中于艺术形式探讨,绘本绘刻内涵研究,女娲与伏羲、西王母等共现人物的关系研究,
基于特定汉墓的女娲石刻画像研究和汉代文化研究,等等。同时,以郑州大学和南阳师范学院为代表的中原
地区高校和研究机构在本领域的研究成果数量较多,呈现出较为明显的地域聚集效应。第三,中介中心性作
为测量节点在网络中重要性的关键指标,可一定程度上揭示研究热点之间的突变或转化关系。具有高中心
性的关键词汇在建构女娲研究网络中起到了重要作用,结合时间序列将一定程度上揭示出女娲研究热点的
shabi演进规律。从表2所列的各高频关键词的中介中心性可以看出,具有重要影响的节点按照年份的推移在总
体上呈现出如下轨迹:
1997年(伏羲)→2004年(中国神话)→2005年(文化内涵)→2006年(比较)→2008年(伏羲时代)→
2014年(图像)
上述轨迹中,“比较”“伏羲”和“图像”的中心性值位列前三位,分别为0.54、0.47和0.46,表现出极强的
热点效应。以与女娲相关的比较研究为例,主要分为以下几个层次:(1)以女娲等为媒介的中外神话比较研
究。进行跨文化比较研究的一般前提是将女娲视为始祖神或始母,该类研究专注于探讨中外神话女性形象
差异、特定类型的文化传播规律、文化心理乃至历史宏观背景中的文明差异研究,比较常见的地域集中在日
本、希腊和泛指的“西方”概念之中。(2)
以女娲相关事迹为关联的民族间比较研究。女娲形象广泛流传于多个民族的历史文化体系之中,与之相关的跨民族比较研究成果也非常丰富,如探讨伏羲女娲在汉族和南方少数民族之中的流播,将汉族女娲造人神话与满族三女神造人神话进行比较溯源的研究[10]
,从川西北羌族地区考察女娲神话踪迹[11]
等。(3)女娲与其他女性神性人物之比较研究。如将女娲与妈祖进行神格与价值方面的探讨[12]
,将女娲与神塔婆进行历史功绩和现实意义等方面的探讨[13]
,以及通过儒家文化和伦理观念对女娲与伊邪那美命渗透研究,揭示中日两国不同的民族心理和文化内涵[14]
等。
表2高
频关键词及高中心性关键词排序高频关键词出现频次年份高中心性关键词中心度年份
1女娲2071992比较
0.542006
2神话1342001伏羲0.4719973
伏羲1041997图像0.4620144《故事新编》511998文化内涵0.4420055女娲神话501990伏羲时代
0.4320086
伏羲氏391992龙祖0.4220087汉画像石382004英雄
0.3920068创世神话361996中国神话
0.3820049伏羲女娲351992神话传说0.36
200510鲁迅342001山海经
0.352005
四、节点突发性探测与时间线研究杨玏个人资料简介
在CiteSpace中,某个聚类所包含的突发节点越多,则表示该领域的活跃性越强,也能在一定程度上表示出新兴的研究热点与趋势[15]
。对基于女娲研究的关键词频次进行节点突发性探测(Burstdetection),可以对其阶段性研究热点和研究方向的跃迁进行考察。探测模型(detectionmodel)的基本参数不变,当γ=0.9时
赵丽颖弟弟结婚
,可以得到女娲研究突现词图(见图3)。
图31962-2020年
女娲研究突现词在与女娲相关的近60年的研究历程中,根据不同时期研究对象、研究内容大致可以划分为三个阶段。第一阶段(
1962-1991),女娲研究的蓄势发展期。该阶段前沿问题不突出的主要原因是该时期收录的文献数量较少,无法通过算法进行突现主题的获取,也正是这一客观原因反映出该时期学者对于女娲的关注视角较为分散,特别是随着民族识别与的不断推进与完善,以及民族民间文化大调查,使得女娲研究在广度和深度上都有了一定的发展。该时期的女娲研究涵盖其作为中华民族始祖的
溯源研究、新疆等地出土的考古发现研究、神话与史学的辩证讨论、女娲在文学作品中的形象探析、民族起源比较研究等诸多方面。如侯哲安在《伏羲女娲与我国南方诸民族》[16]
一文强调伏羲为三皇五帝人文始祖之一,章俊弟在《中国戏剧中的人神恋神话原型》[17]
中围绕中国戏剧中的女神神品与神格展开讨论,贾雪枫等在《我国原始社会的性别图腾》[18]
中论证了女娲在自然崇拜和图腾崇拜中的兴衰,等等。上述研究从计量角度来看热点并不聚焦,并没有形成稳定的关注热点,学者们的兴趣点还基本处于流动之中,但究其现实意义,不少在后世形成了重要的研究流派,甚至成为特定时期的研究主流,纵观女娲研究的全生命周期,该时期起到了非常重要的奠基作用。
第二阶段(
1992-2002),女娲研究的吸纳融合期。从图3可以看出,该阶段包含的突现关键词有“伏羲氏”“炼五”“《故事新编》”“伏羲”和“女娲”,其中“炼五”和“伏羲氏”突现的时间跨度较长,分别为10年和6年,
表现出较强的研究热点效应。“炼五”一词源自“炼五石以补苍天,断鳌足以立四极”譹
訛,主要刻数据视域下的女娲研究态势及知识图谱分析/王京,周园春
KeywordsYearStrengthBeginEnd
伏羲氏1962
7.955619921998炼五19624.684419932003《故事新编》1962
4.73671998
2000伏羲19624.232920012002女娲19625.983220012002创世神话19623.698320072012神话传说1962
4.269620072008原型19624.417320082011图像1962
4.3082
2014
2020
1962-2020
. All Rights Reserved.
社会科学家2021年第10期
画了女娲补天的过程。该词不仅出现在民间文学、民俗学的研究领域,更延伸至气象学、地学、环境科学、材
料科学、逻辑学等相关专业领域范畴,所涉研究主题囊括臭氧层破坏与修复、古代大地震稽考、新型材料冶
炼、二元互补论解读,等等,借“女娲补天”之引申义实现对跨专业领域研究的吸引与聚焦的同时产生了更
多符合当下历史时期生产生活语境中的新发展,实现了研究对象的融合和研究范围的拓展。“伏羲”和“伏
羲氏”的突现,表明该时期将女娲与伏羲同时进行研究的文献数量明显增多,据统计有62篇,这些研究主
题包括两者与婚姻制度的考据、汉墓砖画中二者的形象探究、与伏羲女娲神话相关的信仰研究以及二者的
关系研究,等等。相关论述包括田兆元在《论中华民族神话系统的构成及其来源》[19]中提出伏羲女娲属于中
原神话的系统;石宗仁在《亦谈伏羲女娲》[20]中认为伏羲女娲与南蛮中的苗、九黎等存在渊源关系;易谋远
在《中华民族祖先是彝族祖灵葫芦里的伏羲女娲吗──和刘尧汉先生商讨》[21]一文中反驳了中华民族“文
化共祖”是彝族祖灵葫芦里的龙女娲和虎伏羲,并通过民族融合迁移、文化传播等相关论述,而得出中华民
族的祖先应为黄帝、炎帝的结论,等等。该时期伏羲和女娲逐渐成了一体化的研究对象,实现了研究领域内
的广泛融合。
第三阶段(2003-2020),女娲研究的多元聚焦期。该阶段的研究热点集中在“创世神话”“神话传说”“原
型”和“图像”,特别是学术界对创世神话相关研究和图像学方面的探究热情持续时间均在5年以上,该时期
研究主题的典型特征是“多元”与“聚焦”辩证共存。所谓多元,指的是该时期内与女娲相关的研究主题在数量
上实现了显著的跃迁,在1925篇文献中,文献数量在10篇以上的主题有39个,聚类后涉及女娲神话、伏羲
古巨基年龄
氏、汉画像石、图像学、创世神话、生殖崇拜、遗迹遗俗考据、人物形象分析、文化价值演变、中外神话人物比
较、民间信仰探析、神话学、母系氏族社会、非物质文化遗产,等等。学科分布更加广泛,涉及中国文学、宗教、
考古、旅游、文化、美术书法、世界文学、历史、地理、中国民族与地方史志、中国语言文学、哲学、社会学等30
个学科,形成了百家争鸣的学术繁荣景象。
而所谓“聚焦”,指的是在每一个主题之中,研究在内容和方法论层面的视角更为集中,形成了具有
影响力和持续力的小研究领域。以“创世神话”主题为例,与研究相关的文献有84篇,首先,“中国神话”
“民族神话”“神话学”“母题”“开辟神话”“与女娲相关的神话人物”等核心议题,众关键词彼此勾连形成. All Rights Reserved.
紧密而复杂的关系网络,构成了明显的聚集。由此可见“女娲”与“创世神话”之间的互文与关照逐步深
入,女娲越来越频繁地出现在创世神话研究和史前文明研究的范畴中,女娲作为中华民族的始祖形象也
逐渐得以稳固。其次,以“提坦神”“丢卡利翁”等为核心的词组,该类研究的重点放在了中西方创世神话
比较研究和文化价值研究方面,视女娲为东方代表性神话人物之一,具有与西方同等地位女神相比较的
必然性。该时期的研究者将女娲神话研究的视野扩展到全亚洲乃至西方文明之中,以女娲研究为媒介,
勾连起中西方神话研究的桥梁,在比较文学研究和跨境文化研究方面实现了长足发展。除此之外,聚集
性并不显著,在数量和聚集规模上都无法与前面两类主题相比,一方面反映出特定研究方向学者体的
稳定性,另一方面也反映出有限数量的核心主题对全领域研究视线的吸引,也更容易衍生出与之相关的
研究热点与创新之处。
五、数据方法在社科研究中的局限性及反思
从数据方法应用的现实实践而言,在自然科学的许多领域已取得实质性的进展,这主要是基于数据本身
的客观、精确与足够多的数量。有研究者提出“大致而言,‘大数据’偏重于‘数据’的管理、加工和检索,‘数字
人文’偏重于数据的分析,历史地理信息系统则偏重于用‘空间’来管理、整合和分析数据。且上述三者之间也
不是完全可以明确区分的,如历史地理信息系统可以被看成为整合大量数据的一种方式,从而类似于‘大数
据’;由于其具有强大的数据分析功能,因此也可以被看成是‘数字人文’的一部分。同时,‘大数据’也囊括了
对数据的分析,而‘数字人文’的分析也需要建立在海量数据基础上。”[22]显然,相对自然科学研究而言,人文
社会科学数据数量的产出会影响到结论的形成,同时,许多分析对象本身具有明显的主观判断成分,这对聚
合成为最终具有客观性的数据造成一定的困难。此外由于研究者研究领域和成果产出的个性差异,也会在一
定程度上干扰数据结构与分析结果。尽管如此,当今信息技术已与各个领域的生存与发展紧密联系在一起,
大数据分析方法在社会科学中的应用已经显示出巨大的优势。在今后这种研究新方法的学术实践中,需要我
们在查不足中注意和改进如下几个方面的问题。
譹訛(西汉)刘安及其门客撰:《淮南子·览冥训》。