浅析中文信息处理中的歧义问题
摘要 随着中文信息处理研究的深入,各种新的问题也不断出现,歧义问题成为进行汉语信息处理的一大障碍。本文把中文信息处理中的歧义问题分成三类:兼类词歧义、结构性歧义、多义词歧义,并分析了目前较为通行的两大排歧方法:基于规则的方法和基于统计的方法,认为两种方法各有优缺点,相互结合补充才是最好的解决途径。
关键词 中文信息处理;歧义;排歧
七夕节是几月几日计算语言学是在计算机科学、语言学、数学、逻辑学、心理学等多学科土壤上成长起来的一门边缘学科。具体到中文信息处理领域,主要包括“字处理”、“词处理”和“句处理”。汉语语法研究的成果直接对自动分词、词性标注、机器翻译、文献检索、自动文摘、文本校对等等中文信息处理问题产生显著影响。语法中的歧义研究有重要的意义,常常被看作是语法研究的突破口。语言学家之所以对其保持浓厚的兴趣,朱德熙先生曾经说过:“一种语言语法系统里错综复杂的和精细微妙之处往往在歧义现象里得到反映。因此分析歧义现象会给我们许多有益的启示,使我们对于语法现象的观察和分析更加深入。”
1 歧义现象的分类
经过分析总结,笔者认为,目前中文信息领域的歧义问题,可以分为三大类:汪峰章子怡结婚
1.1 兼类词歧义
兼类词是指具有两类或几类词的语法功能,且意义相同的词。划分汉语词类的主要依据是语法功能,而汉语的词类与句法成分并非一一对应。汉语不像屈折语那样具有丰富的形态变化,能够由形式去固定词类以及该词所充当的句法成分。汉语缺乏形态变化是造成兼类现象的基本原因[1]。请看下例:
(1)为买这束花,他可花了不少钱。
(2)用锁把门锁好。
鸣人打大蛇丸(3)你比奥特曼还奥特曼。
槐花怎么保存最好以上三例中,分别有两个“花”、“锁”、“奥特曼”,但是只是形、音相同,词性和意义都不同。例(1)中,第一个“花”是名词,第二个“花”是动词“花费”之意。例(2)中,第一个“锁”是名词“锁子”之意,第二个“锁”是动词“锁住”之意。例(3)中,第一个“奥特曼”是名
词,指科幻片中打怪兽的超人,第二个“奥特曼”是形容词,词类活用,形容很英雄。从教学的角度看,这种分类比较细致,便于人们的理解和掌握;但从中文信息处理的角度看,这种分法不便于计算机掌握。
笔记本怎样无线上网>天生是优我宋芳园