计量特征在语言风格比较及作家判定中的应用——以韩寒《三重门》与郭敬明《梦里
花落知多少》为例
ComputerEngineeringandApplications计算机工程与应用
计量特征在语言风格比较及作家判定中的应用
——
以韩寒《三重f-1)与郭敬明《梦里花落知多少》为例
陈芯莹,李雯雯,王燕
CHENXinying,LIWenwen,WANGY ah
中国传媒大学应用语言学系,北京100024 DepartmentofAppliedLinguistics,CommunicationUniversityofChina,Be ijing100024,China
CHENXinying,LIWenwen,WANGY an.Applicationofquantitativecharac teristicsincomparisonoflanguagestyleandauthor
judgment--TripleGatesofHanHanandNeverFlowersinNeverDreamsofGu oJingmingasexamples.ComputerEngineering
andApplications,2012,48(3):137—139.
Abstract:Thepaperproposesthemethodthatappliestheresultsofquantitativ elanguageresearchincomparisonoflanguagestyleand authorjudgment.Thepaperdiscovers7languagestructurecharacteristicspos
sessingobviousdistributiondifferencesthroughthestatisti- calcomparisonof12languagestructurecharacteristicsdistributionoftwocor puseswith75thousandwords.Thepaperalsoanalyzestwo
textswith75thousandwordswhicharenotdenotedwithauthorsbyregardingt he7languagestructurecharacteristicsastextexpression characteristics,andaccuratelyjudgestheauthorsofthetwotexts.Themethod adoptingquantitativecharacteristicsoflanguagetodenote textcanbeaerexplaintheresearchoflanguagestyleandauthorjudgment.The quantitativeresearchoflanguagestructurecharacteristics basedoncorpusandstatisticalmethodisanimportantmethodfortheresearcho fChineselanguagestyleandauthorjudgment.
Keywords:languagestyle;languagestructure;TripleGates;NeverFlowersi nNeverDreams
摘要:提出了将语言计量研究成果应用于语言风格对比及作家判定中的方法.通过对两个75000字的语料中12个语言结构特
征分布的统计对比,发现了7个具有显着分布差异的语言结构特征.并以这7个语言结构特征作为文本表示特征对两个75000
字的未知作家文本做了相关性分析,并准确判定了未知作家文本的作者.以语言结果的计量特征表示文本的方法加强了语言风
格对比及作家判定研究的可解释性,具有较高的理论和应用价值.以语料库和统计方法进行语言结构特征计量研究是汉语语言
风格描写研究及作家判定研究的重要方法.
关键词:语言风格;语言结构特征;三重门;梦里花落知多少
DOI:10.3778~.issn.1002.8331.2012.03.040文章编号:1002—8331(2012)03.0137.03文献标识码:A中图分类号:TP391.1 1引言
作家在语言表达中所形成的不同言语特征表现在数量上
就是统计特征上的差异.换言之,语言风格是由于语言单位
使用频率的差异而产生的.语言单位的分布频率是分析作家
语言的物质基础.通过对不同作家语言中语言结构特征的统
计可以得出语言风格的一致性或区别性特征,语言结构的分
布数据就变成体现作家语言风格的计量特征.反之,如果能
够获得陌生文本关于语言结构方面的数据,就有可能以此为
基础来判定文本的作者.
通过各种特征对文本进行统计分析的思想最早见于数学
家Morgan在1851年的猜想和建议.到了20世纪末,统计方法
在比较多种文本的风格特征,判定文本的年代,判定文章的作
者,识别同意作者的不同写作风格,判断某一作者的作品先后
顺序,推测文章的来源,判定匿名文章作者,辨别文章真伪和判
断语言亲属关系等诸多领域内都得到了很广泛和深入的运用u】. 而在汉语本体研究领域,统计方法的运用主要集中在汉
字,词汇的计量研究和风格统计研究中,如常宝儒,刘源,梁
南元,陈原,李兆麟,王德春,陈瑞瑞嘲,曹聪孙,吴礼权一,
曾毅平,朱晓文.但这些研究没能全面地揭示出不同语言风
格中在语言结构上的差异,在语料规模,语言结构的选择和统计方法等方面都有待加强u”.
基于语料库和统计方法,获取现代汉语语言结构的计量
特征,而后考察这些语言结构计量特征在作家语言风格描写, 对比研究及作家判定方面的实际应用.
2语料与方法
寻求体现作家风格不同的计量特征的具体过程是:选取
两个作家的语料样本,对其进行分词并以文本为单位计算特定语言结构在文本中的频率和百分比,基于样本的均值比较
这些语言结构在两个样本中的分布是否具有差异.选用作家的其他语料样本,计算其与统计所用语料样本的相关性,测试计量特征在辨别不同作家语言时的有效性.
在选取语料时,考虑到时代等外部因素对语言的影响很
难做定性定量分析,趋向于选择具有相似语言环境的语料.
郭敬明(/view/4386.htm?f~ala0)出
生于1983年,韩寒(/view/5972.htm)出生于1982年.两人均成名于新概念作文大赛,被视为80后作家的代表.郭敬明的代表作《梦里花落知多少》发表于2003年, 全文155820字(如无提示,文中所列字数之数据均为基于word的字数统计结果);韩寒的代表作《三重门》发表于2000 年,全文158702字.两位作家的年龄相仿,成长及写作环境相似,各自代表作的发表时间也相近且篇幅相当.因此,认为《梦
作者简介:陈芯莹,女,博士,研究方向:依存语法,复杂网络,计量语言学;李雯雯,女,博士;王燕,女,博士.E-mail:******************
收稿日期:2010—07—15;修回日期:2010.11-12 ComputerEngineeringandApplications计算机工程与应用
里花落知多少》与《三重门》具有较大可比性,符合语料选择的
标准,是比较理想的实验语料.
确定了语料来源之后,为了更精确地做文本对比,从两本
书中各自选择了15万字(共30万字)作为实验文本.其中训
练语料文本各75000字,测试语料文本各75000字(训练语料
文本共15万字,来自于两本小说的前半部分;测试语料文本共
15万字来自于两本小说的后半部分,训练语料与测试语料无
交叉).之后,根据北大的分词体系,采用单词性标注对实验
文本进行了自动分词.
3数据与分析
选择的考查对象均为词汇层面和句子层面的语言结构特
征.词汇层面的计量信息易于获取,词汇计量研究一直是计
量与语言学的研究热点之一.同时,尽管词频仍然是研究的
基础,但实词,词性标记,词的位置,词长,词序,单现词(hapax)
和Ⅳ元属性等也都已进入了国内外计量语言学研究的视野.
韩寒郭敬明什么关系
选择了部分代表语言结构长度,词汇丰富程度,词类和句式使
用等方面的语言结构作为考查对象”.
在参考文献[11】提出的用于文本聚类的汉语计量特征后,