面向自然语言处理的大规模语义
知识研究述要*
詹卫东
北京大学中文系 100871
E-mail: ***********
摘要本文对国内外一些有代表性的语义知识库进行了整体考察和比较,形成了四点认识:(1)各语义知识库均以“语义关系”为重点描写内容;(2)语义知识范畴具有明显的相对性特点;(3)语义知识主要是作为约束条件,在计算机对“语言形式”做各种变换操作时发挥作用;(4)应该重视通过系统的语言形式变换手段来界定语义范畴,提取语义约束条件。由此得到的语义知识,能更好更直接地为自然语言处理服务。
1  引言
本文打算对国内外自然语言处理领域中(主要是20世纪80年代以来)一些语义知识工程研究作一个整体回顾。就选取考察对象来说,本文主要考虑了(1)研究工作的影响;(2)研发单位的性质与地域分布;
(3)知识库规模、语种;(4)时间性;(5)理论背景与构建方法等方面的因素。尽管限于篇幅和笔者的视野局限,本文无法做到非常全面,但下文谈到的语义知识工程研究项目,应该说都具有一定的代表性,基本可以反映近二十年来国内外语义知识库研究的面貌。就本文的分析旨趣和目标来说,我们对各个语义知识工程的考察是希望能够从实践回到理论。因而更重综合,求共性,而不注重区别辨异。我们的想法是,语义知识库也像产品一样,它的制造者往往倾向于渲染它的特,它的与众不同。而对语义知识库的研究做客观的综合考察,则应该追求从“各不相同”的具体的研究工作抽象出共同的需要解决的问题,这样,对未来的相关研究工作会更有参考价值。
2  回顾
为简明和讨论方便起见,先把本文考察的12个语义知识工程项目(国内国外各6
*本文题为“面向自然语言处理的大规模语义知识库研究述要”,但谈到的语义知识库工程中有的并不完全是“面向自然语言处理”,或者至少研究者的初衷并不是“面向自然语言处理”,但这些研究项目的成果实际上已经在或者可能将在自然语言处理的研究和应用中发挥重要的作用。因而客观上是“面向自然语言处理的”,或者至少是“部分面向自然语言处理的”。
个)的基本情况列一个简表如下。
表1:20世纪80年代以来若干有代表性的语义知识工程项目简表
项目名称 时间 研制者 规模、语言 语义理论基础 构建方式
WordNet 1985- 美国普林
斯顿大学 111223个概念;
名、动、形容词、
副词;英语
基于关系的语义描
述理论;同义词集
合,语义关系描述
手工构建;免费在
线资源;
FrameNet1997- 美国加州
大学 458个框架邱意浓
皮影戏的起源4000多词;英语
框架语义学;框架元
素,配价,语义关系
手工构建;免费在
线资源;
I ntegrated L inguistic D atabase 1993-1996 英国剑桥
除螨吸尘器大学、爱丁
堡大学等
规模不详;英语语义分类,语义特
征,语义角与选择
限制等
后宫电视剧手工构建;不详
MindNet 1993- 美国微软
公司 15.9万词(名、
动、形);英语
语义关系描述 自动构建;商业产
CYC常识知识库*1984- 美国CYC
公司1
规模不详;英语人工智能知识表示
理论(CycL形式描
述语言)
手工构建;商业产
EDR概念词典*1986-1994 日本电子
辞书研究
所2
26万日语词,19
万英语词,41万
个概念;
语义分类,语义关系
描述
手工构建;商业产
现代汉语述语动词机器词典 1990-1993 人民大学,
清华大学
1000多动词,
3000多义项;汉
格理论;格,格位 手工构建;不详
“905”语义工程 * 1990-1995 北京语言
大学,河南
财经学院
4万多实词,
近5万义项;汉
语义场,语义网络,
格理论
手工构建;不详
How-Net(知网) 1988- 董振东 等汉英双语
116533条记录;
义原分析(2199个
义原,);语义角、
语义关系描述
手工构建;免费在
线资源 / 授权使
Sino-Trans -SemDict *    -1995 中软公司 规模不详,实
词;汉语
语义分类;语义关系
描述
手工构建;商业产
Beida- SemDict * 1996- 北京大学 65330词条;名
词、动词、形容
词、副词;汉语
语义分类;配价;语
义角选择限制
手工构建;授权使
CCD 2000- 北京大学 近7万个概念,
汉、英双语 类WordNet的语义
知识表述框架
手工构建;授权使
1 Douglas Lenat于1984年在美国MCC(微电子计算技术公司)开始CYC(CYClopaedia的缩写)的研究工作,1995年成立CYC公司。CYC的知识描述语言CycL是一种Lisp风格的形式语言。
2读者访问EDR网页可以看到,日本电子辞书研究所(EDR)已于2002年3月31日解散,目前EDR 属于日本通信研究实验室(C ommunication R esearch L aboratory,CRL)。
表1中有的项目名称是研发者所起的正式名称,有的并不是正式名称,而是下文为了称引方便临时冠以的名称(以*号标出)。这些语义工程项目的具体内容都是非常丰富的,表中的概括为了追求简明性,其中关于各知识库语义理论基础的说明,只是“点到为止”。另外,由于不少语义知识库仍在发展中,因而表中对知识库规模的描述也是阶段性的数据(对那些仍在发展的项目,读者可访问相关网站了解最新数据信息)。
就国内的研究工作来说,“现代汉语述语动词机器词典”[16]是国内研究人员开始借鉴国外语义学理论并根据汉语的描写需要加以调整后,进行小规模初步试验的结果;905语义知识工程[13,18]和HowNet [11,12]则是以建设通用语义知识平台为目标,进行大规模语义知识库实践的产物;Sino-Trans SemDict [19]和Beida SemDict 语义词典[20,24]都是在汉外机器翻译背景下开发完成的,跟汉外机器翻译的实际需求结合得很紧密。北大2000年开始的CCD (中文概念辞书)项目[23]采用了类WordNet 的知识描述框架,显示了国内语义知识工程与国际接轨的发展趋势。有关这些语义知识工程的细节内容,读者可以参阅相关文献做深入了解。下面通过举例的方式,对国外的语义知识工程做进一步的细节介绍,希望能有助于读者对这些研究工作有更直观的认识。限于篇幅和我们所掌握的资料,重点介绍WordNet ,FrameNet ,ILD 和MindNet 的一些情况。 1) WordNet [4]
WordNet 的基本单元是所谓的同义词集合(synset ),下图中每个“{ }”就是一个synset ,集合中的元素相互之间构成同义关系。在WordNet 的浏览器(browser )中查询“father ”这个词,可以到跟这个词所在的synset 有“关系”(包括上下位关系,反义关系,整体-部分关系,等等)的其他synset ,这些synset 之间形成一个“网”,是WordNet 这张大网中的一个局部“小网”。
上海新增358例本土确诊
{entity, physical thing}
{causal agent, cause, causal agency}
{relative, body, flesh, ...}
{ancestor, asendant, root}
female parent}
图1 WordNet 词义关系示例
图1展示的是WordNet中名词的语义知识表示。WordNet中也规定了动词、形容词、副词的语义知识表示规范,其核心都是synset以及概念之间的各种关系。跟下面将要介绍的其他三个语义知识库相比,WordNet的语义知识表示有两点值得注意:(1)把“同义”关系放在了非常重要的位置;(2)不同词类之间的组配约束关系(比如动词跟名词之间组合的复杂关系)在WordNet中几乎没有涉及。
2) FrameNet[7,9]
跟WordNet最初源自对词汇知识表示的心理学兴趣不同,FrameNet完全是语言学家在一套系统的语义学理论指导下的一次工程实践。支持FrameNet的是著名语言学家C.J.Fillmore继格语法之后提出的“框架语义学”(Frame Semantics)理论。该理论的核心思想是,人们对词义的理解需要建立在对认知域,也就是“框架”(Frame)的理解的基础上。因此,“框架”是组织词汇语义知识的基本手段,一个框架中包含了若干“框架元素”(Frame Element),框架元素跟“格语法”中的“语义格”相比,更具体,分
得也更细一些,最重要的是,在以往的理论中,“语义格”是相对于所有词汇而言的,是高度抽象和概括的,而“框架元素”是相对于一个个的“框架”而言的,是“框架”中的构成成分。下面表2展示了“Removing”这个框架的情况。
表2: FrameNet框架示例:Removing
框架名 Removing(移开)
框架描述An Agent causes a Theme to move away from a location, the Source.
Agent施事The Agent is the person (or other force) that causes the Theme to move.框架元素
Cause致事The noise of impact resulting from caused-motion of a Theme
Theme当事Theme is the object that changes location.
Cotheme同事The Cotheme is the second moving object, expressed as a direct object.
Distance距离The Distance is any expression which characterizes the extent of motion.
Goal目标The Goal is the location where the Theme ends up.
Path路径Path along which moving occurs.
Result结果Result of an event
Source起点The initial location of the Theme, before it changes location.
Vehicle交通工具The means of conveyance controlled by the Driver.
词例abduct.v, clear.v, confiscate.v, depose.v, discard.v, dislodge.v, drain.v, eject.v, ejection.n, eliminate.v, elimination.n, empty.v, evacuate.v, evacuation.n, evict.v, eviction.n, ...
每个框架都包含了一批词语,理解这些词语的词义,必须以理解整个框架为前提。比如“Removing”这个框架中就包含了“abduct、clear、confiscate、……”等动词,也包含了“ejection、elimination、……”等名词。这些词语的“共性”(尽管句法上分属不同词类),在同一个“语义框架”中得到了体现。“Removing”是一个描述动作性场景的框架,FrameNet中也有描述事物性对象的框架,比如“Vehicle”(交通工具)就是一个事物类框架。为了表述的简洁,框架之间可以有继承关系,比如:frame(Driving)可以从frame(Transportation)继承框架元素。此外,对于框架中的动词,FrameNet数据库还描写了各个框架元素(角)的句法配位,即不同的框架元素(由名词或介词短语充当)在表层句子结构中所占据的句法位置。
3) ILD [ILD1,ILD2,ILD3]
Integrated Linguistic Database (综合语言知识库,简称ILD )对词汇语义的描述主要包括三个方面:(1)词语之间的上下位关系——这是通过语义分类树来表述的;(2)词语的特征描述——ILD 中设置了多达200多个特征,其中既有句法特征,也有语义特征,这些特征实际上表达了词语之间的多种关系(比如表3中的“used_for ”特征,实际上就是在名词和动词之间建立了“实体——用途”的关系);(3)动词对名词的语义选择限制。下面表3显示了ILD 中的前两项内容;表4显示了第三项内容。
表3: ILD 中词义分类及语义特征描述示例
词语
如何查车辆违章记录上位词
下位词 特征名
特征值
参数
appreciation strengthened
for defence purpose colour .  constituents walls
roof ...
count yes  group_of buildings  made_by humans  made_from .  movability no  position on ground shape .  size large  used_by people under attack fortress building*STRUCTURE
castle citadel
used_for sheltering
within
表4:ILD 中动词对名词的语义选择限制描述示例
对角的选择限制
动词
抽象类别
具体描述
扮演某个角的典型成分 SUBJ Human assassin
terrorist, fanatic assassinate OBJ Human important /influential_person
president, prime minister
SUBJ Human / Vehicle
person sailor
Sail
(across) place
.
.
4)MindNet [5,6]
MindNet 跟其他语义知识工程最大的不同在于它的构建方式。MindNet 是利用微软功能强大的句法分析器(Parser )自动分析词典释义(Definition )文本得到的。MindNet 中预设了24种关系,如下面表5所示3:
3
表5及下面图2的示例均引自Richardson, Stephen D. et al. 1998,中文译词是本文作者加的。