基于表示学习的引证网络关键路径识别研究
作者:孙晓玲 杨颂颂
来源:《科学与管理》2022年第04期
        关键词:主路径分析:技术演化脉络:Doc2Vec:引证网络
        0引言
        2020年,国务院印发《新时期促进集成电路产业和软件产业高质量发展的若干政策》(以下简称《若干政策》),强调集成电路产业和软件产业是引领新一輪科技革命和产业
变革的关键力量。一系列促进集成电路产业和软件产业高质量发展的相关政策以及全面优化完善高质量发展芯片和集成电路产业的有关环境政策的发布,表明了我国政府高度重视芯片产业、集成电路产业的高质量发展,并在各行各业对该领域发展进行大力扶持。2016年由国际知名专利检索公司QUESTEL发布的《芯片行业专利分析及专利组合质量评估》中指出,在数量上中国已经成为目前世界上芯片专利申请的第一大国。虽然我国芯片专利申请数量排名连年居高,但《若干政策》中指出,我国目前的芯片产量仍未有效满足各行各业对芯片的需求,在高端芯片方面严重依赖于进口。姜迪等指出中国芯片制造工艺水平低下是芯片产业链中最为薄弱的环节,芯片自给率低,芯片制造设备严重依赖进口。高端芯片制造的核心设备是极紫外(Extreme Ultraviolet,简称为EUV)光刻机,全球能够生产EUV光刻机的只有荷兰的阿斯麦以及日本的尼康、佳能。现阶段我国只能生产中低端光刻机,难以满足高端芯片制造的需求。光刻机(也称光刻系统)是光刻技术的关键装备,光刻技术的发展大大提高了芯片的计算速度及存储量,可以说光刻技术是促进芯片产业和集成电路及相关产业发展的关键核心技术。
        技术和知识资产优势在发达国家与发展中国家博弈中占有压倒一切的核心地位与关键作用。为了维持与发展中国家的技术差距,发达国家将以前的“技术封锁”战略转变为“技术
锁定”战略,使发展中国家形成了长期的技术依赖。随着中美贸易摩擦的加剧,美国进一步对我国关键产业核心技术进行全方位封锁,因此,寻求产业核心技术的破解已经成为我国各界亟待解决的战略性课题。要想破解我国光刻产业技术锁定难题,应当从光刻技术领域知识发展脉络人手,研究光刻技术领域发展历程。随着科学技术的迅猛发展和经济社会的持续进步,科技文献信息正以惊人的速度不断增长。由于科学技术的更新换代和知识的新陈代谢,大量现有科技文献信息的利用价值也正以不同的速度逐步减少。如何快速准确地发现领域内具有重要影响的知识演化脉络,以支撑未来的科技创新与科技决策,成为目前研究者关注的焦点。
        我国光刻技术领域正处于被技术封锁的困局中,识别知识流动脉络以及探索光刻产业核心技术发展规律是值得深入研究的方向。在识别知识流动脉络的过程中不仅可以建立起整个领域的发展骨架,观察到整个领域的发展全貌,而且可以帮助研究者识别出该领域的重要根源文献,并且得到重要根源文献在时序上的知识流动关系。本文应用社会网络分析方法建立起技术引证网络,在此基础上,将主路径方法以及文本挖掘方法应用于关键主路径方法中,通过对核心文献和非核心文献相似度的大小归类文献,不仅可以避免丢失非核心文献的知识演化过程,而且可以提高整个引证网络的链接强度,得到更为聚集的文献
落。在此引证网络的基础上可以快速得到各自方向的关键主路径,进而得到每一条知识流动路径。探索光刻产业核心技术发展规律可以帮助研究者快速掌握光刻产业领域技术演化轨迹,为更早发现创新型技术方向提供可能,为我国实现技术突破提供方法参考。
        1相关研究
        最早提出引文网络主路径方法的是Hummon和Doreian,他们从引文的关系出发而非节点之间的相似性来挖掘主要事件、主要理论和主要任务,提出了NPPC、SPLC和SPNP三种遍历算法以生成主路径。
        1.1基于遍历权重算法的主路径分析
        在NPPC、SPLC和SPNP算法以及社会网络分析理论基础上,V.Batagelj进一步深化了主路径分析方法,并提出了此后在多数领域应用中最为主流且与NPPC、SPLC和SPNP等价的SPC算法。SPC算法通过遍历某条边所有从源节点到尾结点的次数计算出这条边的权重值。相比于NPPC、SPLC和SPNP,SPC可以更快地计算出每条边的权重,提高了运算效率。Wang等使用SPC算法从知识来源多样性和技术领域多样性角度出发进一步研究了知识演变,取得了很好的效果。
        除了早期的NPPC、SPLC和SPNP算法外,后续出现了基于SPNP和SPLC的最优主路径演化网络的NETP算法,该算法是一种局部最优主路径算法,局部最优有可能出现遗漏掉全局最优解的情况。在最新的研究中,王婷等将社区发现算法与SPNP算法结合起来,对中药产业领域进行衍生路径识别。Li等则在引文网络的基础上结合引文分析与文本挖掘方法来监控纳米发电机技术领域的发展路径并预测其发展趋势。马瑞敏等从有机电激光显示技术人手证实了从节点重要性出发来探索一个领域的主路径是很有必要且可行的。这些方法被学者们陆续应用到概念系谱、学科划分等研究领域以及燃料电池、电线交换等技术领域。
        总体来说,已有研究都只是基于引证网络做出网络中路径的相关搜索算法,需要在后续的研究中对算法进行优化。早期文献计量学工作者大多基于学术文献间的相似性聚类结果探究引文网络中的知识演化结构,从而缺少了从引文内容角度探究知识的生产、传播、吸收和创新等方面的相关研究。而以主路径分析为基础的引文网络知识流动研究,恰好利用了引文网络的拓扑结构、学术文献间的应用关系、处于引文网络核心地位且对知识流通具有枢纽作用的学术文献,展现了引文网络中的知识继承与改写关系。
        1.2基于引文内容权重的主路径分析
        在SPC算法的基础上,随着自然语言处理技术的发展,后续学者们陆续考虑科学文献中的其它要素,主要是以引文内容为主。学者们尝试着将白然语言处理技术用于这些文章内容中,试图挖掘文本中潜在的语义信息联系,计算出更为真实可靠的主路径。学者们对于引文内容的研究关注于节点所包含的信息,主要使用方法包括主题模型、神经网络语言模型等。
        程洁琼等受PageRank算法思想的启发,在路径搜索中,通过PageRank算法计算节点的影响力,之后基于边链接影响力流进行主路径的搜索,利用海水淡化领域内专利数据进行相关的实验。Liu等提出了关键路径搜索得到的主路径既有全局最优主路径还有局部最优主路径。Liu等在后续的研究中利用网络节点间的引证关系对原始的连边遍历数进行加权调节,然后根据加权后的连边遍历数来确定主路径。
        已有的主路径分析算法利用路径权重指标所得到的高权重路径、局部最优主路径等一方面可能因为路径上节点数量较多以及局部最优所产生的累加效应导致该高权重路径会遗漏掉全局最优主路径,未能反映出路径的重要性,另一方面现有的主路径分析方法所得出的结论大多数将所有的引文关系一视同仁,但是在真实的引用关系中,仅有研究主题较为
相似的引文对该关键路径中的主题演化起到关键作用。因此本文在引文网络中充分考虑了引文内容在整体引文网络中所起的作用,本文将深度学习中的表示学习方法应用到主路径分析方法中,挖掘网络中的关键路径。
        2研究方法
        本文从科技文献引证以及文本挖掘的角度研究知识流动与技术轨迹,从而破解我国光刻产业核心技术被发达国家锁定的困局。首先阐述我国光刻产业核心技术被锁定的现状,其次从引文网络以及引证网络的角度出发,建立起光刻产业核心技术轨迹骨架,最后通过将机器学习方法中的Doc2Vec应用到该技术轨迹骨架中,进一步聚合文献落,对骨架中的知识流动进行分析,从而获取其核心技术发展规律。运用实证分析,对我国光刻技术产业发展现状与国际发展现状进行研究。在此基础上,从不同的角度对我国破解光刻产业技术锁定困局提出科学的策略,为我国光刻技术产业蓬勃发展提供科学的理论依据。
        本文具体的研究技术路线图,如图1所示:
        2.1SPC引文分析方法
        利用SPC方法在网络中提取主路径,网络是指专利的引证关系网络以及科技文献的引文网络,这里以科技文献的引文网络为例进行介绍。Batagelj提出的SPC算法中,通过遍历得到整个网络图中从源点到汇点的所有路径,所有路径经过某条边的计数次是该边的权重值。
        如图2所示,该网络一共有6条路径,经过(A,B)的有3条,故(A,B)的权重值就是3,同理求出所有直接边的权重值,进行累计求和,得出总值为12的路径A-B-D-E-G、A-B-D-E-F、A-C-D-E-C、A-C-D-E-F是全局主路径。
        2.2单路径SPC权重值
        根据Batagelj提出的SPC算法,路径起点是网络中的源点之一,路径终点是网络中的汇点之一。定义边(A,B)为由节点A指向节点B的边,也称为单路径。该单路径的SPC权重值SPC:
        其中,(containsAB)为遍历网络中所有的全局路径,其中对包含(A,B)边的全局路径进行计数,计数值为(A,B)的SPC权重值。
        对于SPC算法来讲,某一条全局路径的.SPC值计算如下:
未识别的网络