关于现代汉语词语语法功能分类
 
俞士汶
 
关键词:语言信息处理、现代汉语、词类、语法功能
 
一.  信息处理用现代汉语词语分类体系
在朱德熙先生的语法理论的指导下, 北大计算语言学研究所与中文系合作, 经过几年的研究, 提出了一个服务于语言信息处理的现代汉语词语分类体系, 并将五万多条的词语实际进行了归类, 三年级秋天作文300字与此同时还按类详细描述了每个词语的多种语法属性, 初步建成了“现代汉语语法信息词典”, 另外对数十万字的语料进行了切分和词性标注。这就又进一步检验了词类划分的科学性与可操作性。达到如此规模和如此深度的汉语语言工程实践可能是罕见的。
本文介绍现代汉语词语分类体系、分类的理论基础, 并以若干词类为例详细介绍具体的划类准则。
    现代汉语的词分为以下18个基本词类, 括号中的拉丁字母是各类词的代码。
    名词(n), 时间词(t), 处所词(s), 方位词(f),  数词(m), 量词(q), 区别词(b), 代词(r), 动词(v), 形容词(a), 状态词(z), 副词(d), 介词(p), 连词(c), 助词(u), 语气词(y), 拟声词(o), 叹词(e)
    这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统称为体词, 动词、形容词、状态词统称为谓词。有一部分代词属于体词, 另一部分代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称为虚词。实词与虚词是汉语的两大词类。此外还有拟声词与叹词, 它们游离于这两大词类之外。
自然语言处理的常规技术要求在自然语言处理系统中配备一部电子词典。对于计算机系统来说, 可以认为作为电子词典的登录项的语言单位是“词”。其中大部分肯定是语言学家认同的词, 这也就是暗示了其中还有一部分不能看作“词”。从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,词典中另外包含了以下7类语言成分:
前接成分(h): , , , , 
后接成分(k): , , , , 
语素字  (g): , , , , 
非语素字(x): , , 
成语    ( i): 按部就班, 八拜之交
习用语  ( l): 总而言之, 由此可见
简称略语( j): 三好, 全总
    4类是比“词”更小的单位,不成词。这些成分的数量是有限的,只要电子词典的规模允许,应当尽可能地将这些成分全部收入。后3类是比“词”更大的单位, 词典中只能收一部分使用频率高的。本文将电子词典中登录的各种语言成分笼统地叫做“词语”。
    以下行文中的“词类”是就前面的18个基本词类而言的, 有时也讨论上述后7类语言成分。
 
二.  词语分类的理论基础
2.1 分类的目的与依据
    为了进行语法研究与信息处理, 需要把语法功能相同的或者相近的词归成一类。这里包含两项工作。一项是要针对汉语词语的全集, 按照某种标准, 建立一个分类体系。第一章所介绍的就是面向信息处理的一种汉语词语分类体系。另一项工作是决定该全集中的每一个词语究竟属于哪一个词类, 这项工作可以叫“归类”, 不过人们习惯上也在“归类”的意义上使用“分类”这个术语。
    如果面向人的语言研究,词语分类尚不十分迫切的话,那么面向计算机的语言研究, 词语的语法分类及其代码化几乎是不可缺少的。词语分类实际上是将最重要的语法知识与语法规则条理化, 从而为自然语言的分析与生成提供最重要的线索。
    划分词类的本质根据只能是词的语法功能。所谓词的语法功能主要是指: (1)和某个或某类词语组合的能力; (2)在句法结构中充当句法成分的能力。例如, 考察具有如下语法功能的
词。
a. 可以用作主谓结构中的谓语,但不能带真宾语。如“个子高,教室安静”中的“高, 安静”是谓语。象“高三公分, 安静了两天” 关于元旦节的诗中的数量短语 “三公分,两天”是准宾语,而不是真宾语。
b. 可以受“很”一类程度副词修饰,如“很高,挺安静,特别雄伟”。
c. 可以作述补结构中的补语,如“洗干净,捆得结实”中的“干净、结实”是补语。
d. 直接或加“地”后作状中结构中的状语, 如“迅速提高, 安全地转移”中的“迅速、安全”是状语。
e. 直接或加“的”后作定中结构中的定语, 如“漂亮小,简单贺卡 挺拔的山峰”中的“漂亮、挺拔”是定语。
f. 可以用 a +“不”+ a 的形式提问,如“硬不硬,痛苦不痛苦”。
g. 后可接语气词“着呢”,如“美着呢,痛快着呢”。
       
       
    可将这样的词归成一类, 起个名字叫“形容词”, 并用一个代码“a”表示。这样, 如果判明了一个词具有上述功能, 则可以将它归入形容词; 反之, 如果能从汉语语法信息词典查得某个词的词类代码是“a, 则知它很可能具有上述语法功能, 除非汉语语法信息词典对其中某些词的某些语法功能另有更准确的描述。
    参照上述语法功能, 可以将形容词同其它词类区分开。如名词不具备上述功能中的b,c, d, f, g, 一般地说,也不具备功能a。同时名词的语法功能中也有一些是形容词所不具备的。划分汉语词类的本质依据就是这些语法功能的异同。
    划分词类的本质依据只能是词的语法功能, 词的意义不能作为划分词类的依据, 这与划分词类的目的是紧密相关的, 因为表示同类概念的词的语法功能并不一定相同。例如,“战争”与“打仗”指的是同一个概念, 可是“战争”是名词, “打仗”是动词。汉语不象印欧语那样有丰富的形态, 也不能根据形态给汉语的词语分类。在第1章描述的分类体系中,有一些词类(如代词、数词、拟声词和叹词), 不是严格根据它们的语法功能分布划分出来的。这种情况不会给词类划分理论造成困难。以代词为例, 它是根据一个词是否具有指代功能划分出来的, 
这实际上是语义范畴的功能。如果严格按功能划分, 不妨细分为体词性代词(过去叫代名词)和谓词性代词。现在仍将它们归入一类, 是为了同传统的说法衔接,同时也适合信息处理的需要。
 
2.2 关于分类问题的若干说明
2.2.1 词的同一性问题
    虽然说划分词类不是依据意义, 但是需要认识到, 划分词类只能在确定了词的同一性的基础上进行。所谓同一性指的是在不同的语言环境中出现的词形相同的若干个词应该算同一个词还是应该算不同的词。书面汉语的同形词限定为汉字相同的词, 也可以直接叫做同字词。同字词又可分为同字异音词与同字同音词。如“好人好事”中的“好”与“好管闲事”的“好”是同字异音词, 而“很好”与“好狠”中的“好”却是同字同音词。同字异音词当然是不同的词。因此, 同一性问题的研究对象是同字同音词。
     门上挂着一把锁。
     请把门锁好。
1与例2中的两个“锁”的意义区别很明显, 并且语法功能也有明显的不同权限设置, 因而有理由说它们是不同的两个词, 一个属名词, 另一个属动词。
     村里死了一口猪。
     这个办法很死。
3中的“死”是失去生命的意思,可以带体词性宾语, 4中的“死”是呆板、不灵活的意思, 可以受“很”一类程度副词修饰。如果认为“失去生命”与“不灵活”就是不同的意思, 那就可以认为例3与例4中的两个“死”是不同的词,一个是动词,一个是形容词。如果认为“不灵活”的意思是由“失去生命”的意思引申出来的,把例3与例4的两个“死”看成同一个词,这时就需要把有关“死”的种种语法功能合在一起, 由此来确定“死”的词类, 采取这种观点, “死”兼属动词和形容词这两类词。不过, 对于计算机来说, 在句法分析的范围内, 只要能在电子词典中查到“锁”既是名词又是动词, “死”既是动词又是形容词就达到要求了。至于分属名词与动词的“锁”, 分属动词与形容词的“死”是两个不同的词还是同一词兼属不同词类的区别就不那么重要了。
2.2.2 各类词的划类准则
    既然划分词类的本质依据只能是词的语法功能, 那么在确定各类词的分类标准时, 是否都要列举各类词的全部语法功能呢? 这是不必要的, 也是不可能的。因为全部语法功能中当然也包括了这一类词与其它类词的某些相同的语法功能, 而这些相同的语法功能对划分词类是没有作用的。划分词类时必须注意不同词类之间那些互相有区别的特征, 即各个词类的语法特点。在进行将具体的一个词划归某个词类的实际操作时, 检验该词是否具备该类词的全部语法特点往往也是不容易的, 通常只要抓住最重要的语法特点即可。
    例如,2.1节列举了形容词的各种语法功能(当然还不是全部), 其中象“做定语”这样的功能就算不上是形容词的语法特点, 因为名词、动词同样可以做定语。形容词的划类准则可以选这样两条: 1.可以作谓语但不带真宾语;2.可以被“很”修饰。
    选择分类标准的原则应当是由此建立起来的词类, 其所属的词语在语法功能上要有足够多的共同点, 同时跟别的词类又要有足够多的不同点。
    划类标准也不是绝对的, 不是一成不变的。若选择的划类标准不同, 建立的词语分类体系
也会有所不同。不同类的词之间必须要有相互区别的语法特点, 但不是说不同类的词之间毫无共同之处。动词与形容词都可以做谓语, 后面都可以接“了”及趋向动词“起来”收不到消息怎么回事, 就是它们共同的语法功能。如果以这些共同的语法功能作为划类标准, 则可以将动词与形容词(还包括状态词)合并为一个更大的类, 即谓词。
2.2.3 典型性问题
    在一个确定的分类体系中, 同类的词有共同的语法功能十一高速堵车,但不等于说,同类的词的语法功能完全相同。对于任何一种自然语言, 实际可行的、有价值的分类只能做到把语法功能相同或相近的词归在一起。这样一来,同类的词,有些是典型的, 符合分类的全部标准或最重要的标准,有些是不典型的,只符合其中一部分标准。例如, “苹果、水泥、勇气、心胸”都是名词, 它们的共同特征是能做句子的主语与宾语,不受副词修饰。一般地说,名词可以受数量词修饰, 不过量词的类型又有差别。如修饰“苹果”的数量结构中的量词可以是个体量词、度量词、容器量词与种类量词等, 与“水泥”搭配的就没有个体量词, 与“勇气”搭配的只有种类量词和不定量词,而“心胸”却不能受任何数量结构或数词修饰。
    在列举各个词类的划类准则时,应尽可能地把那些重要的列在前面。当判断一个具体的词
是否属于某个词类时, 就可以看它是否符合这些判断标准。越符合多项标准或者前面的标准, 越是该类典型的词。反之, 虽将一个词划入了该类, 但它只符合少数几项标准或者只符合较后面的标准, 那么这个词在该类中就不是典型的。这也是语言现象的模糊性的一种表现。