您好,欢迎来到图艺博知识网。
搜索
您的当前位置:首页基于语料库的新闻语体中语气词使用状况的统计分析

基于语料库的新闻语体中语气词使用状况的统计分析

来源:图艺博知识网
2011-f-12 ̄号下旬刊又教 料 基于语 tl ̄,l库的新闻语体中语气词使用状况的统计分析 李晓朋 (南京师范大学文学院,江苏南京210097) 摘要:基于语料库的词类统计研究越来越受到现 代语言学的重视.本文在新闻语料库的基础上对语气词 的使用状况进行了统计分析.包括语气词在整个语料库 及虚词中的分布情况、语气词的词频统计及分类、语气词 的音节数目分布和语气词的语法功能分布等。对语气词 教学和解释语气词的使用规律有很大帮助。 关键词:语气词语料库统计分析新闻语体 一、引言 基于语料库的词类统计研究越来越受到现代语言 学的重视,尤其是对单一词类使用情况的统计分析,更 是非常有必要,这对于人们了解词类在现实语料中具体 的使用情况有很大帮助,但是这方面的研究却不多,所 以本文拟从统计学角度对新闻语料中语气词的使用情 况进行研究 语气词常用在句尾表示陈述、疑问、祈使、感叹等 语气,永远黏着、后附、轻声。但是由于新闻语体的特 殊性,在语言上有着独特的特点。新闻语体的主要特 点表现为传播对象的大众性,报道的客观性、真实性、 公正性趣味性以及节俭性。这些特点决定了其传播语 言多使用意义具体的词汇、通用书面语词汇和通俗常 用词汇,那么在虚词及其语气词使用上有什么特殊表 现呢?本文将对语气词在新闻语料中的使用情况进行 详细定量统计分析.以为语气词的研究提供比较可靠 的数据。 二、语gt库的选择及研究对象 大型语* ̄4rg的产生对语言学的研究起了巨大的促进 作用,保证了语言研究的科学性。本文以1998年1月北大 标注的新闻语料库作为语料基础,以保证语料的充足性 和科学性。为了保证不使研究方向发生偏误。本文只考察 语气词在新闻语料文体中的使用情况。 本文在计算机基础上。借助于语料检索软件,采用 穷尽式作业,对在北大标注的1998年1月新闻语料库中 的语气词进行检索,共检索出29个语气词及包含这29 个语气词的所有句子,下文将对这29个语气词的使用 情况进行定量分析.并进行简略解释。另外还将部分结 果与刑红兵《现代汉语词类使用情况统计》(1999)的部 分结果进行比较,看一下采用不同语料库结果是否有 差异。 三、语气词在语料库词汇整体及虚词中的分布统计 据前贤的研究,介词、连词、助词和语气词四类构 成虚词一类,属于封闭类,数量有限,但使用频繁,那么 四类词具体的使用情况如何,语气词在词汇总体和虚 词中是如何分布的呢?根据新闻语料库统计出的数据 124 具体如下: 表1 介词与词汇总体、虚词和各类虚词的分布统计表 数量 占总词数 占虚词 总词次 占总词次 占虚词词 平均词次 的比例 的比例 的比例 次的比例 词汇总体 55306 1oo% 1215994 1oo% 21.99 虚词 3l9 O.58% 1oo% 140296 11.54% 10o% 439.80 连词 164 0.30% 51.41% 25478 2.10% 18.16% 155.35 介词 92 0.17% 28.84% 39771 3.27% 28.35% 432.29 助词 34 0.O6% 10.66% 73l63 6.O2% 52.15% 2151.85 语气词 29 O.O5% 9.O9% 1884 O.15% 1.34% 64 97 从表1可知: 1.虚词总体数量所占总词数的比例仅为0.58%,但是 虚词总词次所占的比例却达到了11.54%.相比于词数所 占的比例增加了近2嘴左右:平均每个词的词次出现了 439.80次,也是总平均词次的2嘴左右。从这儿可以看出 虚词的数量有限,但是使用频次很高。 2.在数量上,虚词内的连词、助词、语气词和介词四 类中,语气词数量最少, ̄t.429个,占虚词总数的9.09%,词 汇总体的0.05%,连词的词数最多。占了虚词总数的一半 以上。而在词次方面,语气词数量也最少,每个语气词在 语料库中平均出现了64.97次.占词汇总词次的0.15%;而 助词使用最频繁,词次达到了73163,平均每个助词在语 料库中出现了2151.85次。因此无论是从数量上还是从词 次上,语气词都是最低的。 刑红兵《现代汉语词类使用情况统计》(1999)也曾统 计过类似数据,但是由于采用数据库不同,数据也不同, 为了比较两者的结果是否有差异。本文对其统计数据进 行了重新运算整理如下: 表2刑红兵《现代汉语词类使用情况统计》(1999) 中的有关数据(整理后) 数量 占总词数 占虚词 总词次 占总词次 占虚词 平均词次 的比例 的比例 的比例 的比例 词汇总体 50137 10o% l227164 l00% 24.48 虚词 756 1.51% lo0% 193232 15.75% l00% 255.6O 连词 302 0.6O% 39.95% 27OO4 2.20% 13.97% 89.42 介词 224 o.45% 29.63% 49679 4.05% 25.71% 221.78 助词 137 0.27% 18.12% 95618 7.79% 49.48% 697.94 语气词 93 O.19% l2.3O% 20931 1.71% 1O.83% 225.O6 1.从量上来说,相比于表1中的数据,虚词的量得到 显著地增加,从3l9增加到756个,比重从0.58%增加到 1.51%,在虚词总数变化的同时,四类虚词的数量都有很 大增长.尤其是语气词和连词的数量有比较大的变化,语 又教 :料2o11年12月号下d3ff,] 气词比重显著增加,从29增加到了93个,比重, ̄hk9.06%增 加到12.30%,而连词比重减少了,从164增加 ̄1]302,但比 重从51.41%减少到39.95%。 让学生掌握这5个最常使用的高频语气词,新闻语料中 语气词的运用与理解就基本掌握89.71%,所以掌握这些 最常使用的介词对于介词学习非常有帮助。所以这给我 2.从词次上说.除了语气词有较大幅度的增加外,其 他词都有显著下降,语气词平均词次的增加明显,超过了 介词和连词,而跃居第二位,而连词平均词次却降到最 们的教育启示是:语气词的教学一定要以这前五个语气 词为主,在这五个语气词上进行集中重点教学,有利于 学生能更加有效快速掌握语气词的用法,尤其是对外汉 语教学。 少,这说明在新闻语体中,语气词的使用显著少于其他文 体。连词的使用频度要高于其它文体。 从上面这些数据都可以看出语气词在新闻语体中使 用具有特殊性特点.这可能就是新闻语料库中的虚词分 布与综合语料库的差别之一,探索其深层原因.应该主要 为了给教学提供更多启示,本文具体对前四级高频 语气词分别进行详细统计,统计结果如下: 表4高频语气词统计表 是由新闻文体的特点决定的:一是新闻具有传播对象的 大众性,报道的客观性、真实性的特点,这就要求新闻语 言多使用通用书面语词汇,而且句子多以简单的短句为 主。而综合语料库语言中各种文体的语料都有,语言在词 汇和句子使用上具有多样性特点,所以在虚词数量上表2 比表1要多得多。二是新闻语体主要是客观报道新近发生 的事实、人物事迹等,因此以采用陈述句为主,而综合语 料库中文体多样,因此在句类的使用上也是多种多样的。 所以新闻语体中语气词在数量和使用频率上都是最低 的。三是由于新闻语体多使用简单的短句为主,而且具有 模式性,所以新闻语料库中介词、连词和助词的词次显著 高于综合语料库。 四、语气词的分类统计 本文在98年1月人民日报新闻语料库的基础上检索 出29个语气词,由于语料库为经过规范标注的新闻语料 文本,规模在200万字以上,所以非常具有代表性,因而从 中检索出的语气词基本可以代表新闻语料中常用的语气 词,针对出现了1884次的29个语气词.本文又采用罗万设 计的信息处理软件进行词频统计,统计结果中各个词的 出现次数从1243 ̄1]1次不等,而且每个词的使用频次差距 很大,具体的统计结果如下: 1.介词的频级分布 根据词频统计结果,按照频率分布,将介词词次划分 为八个等级,一级:lOOO ̄:以上;二级:5O0次以上;三级: 100次以上:四级:500:以上;五级:100:及以上;六级:小 于100:。具体统计结果如下表所示: 表3语气词频级分布表 一级 二级 三级 四级 五级 六级 词数 1 0 2 2 7 17 所占语气词比例 3.45% 0.00% 6.90% 6.90% 24.14% 58.62% 累计比例 3 45% 3 45% l0.35% l7.25% 41.39% l00.00% 合计频次 1243 0 308 139 135 59 所占语气词总频次比例 65 98% 0 oo% l6.35% 7.38% 7.17% 3.13% 累计比例 65.98% 65 98% 82.33% 89.71% 96.88% 10o% 从表三看出,前四级语气词数量少,总语气词总数的 17.25%,但使用词次非常频繁.占了语气词使用总频次的 89.71%,而后两级语气词数量多,占了语气词总数的 82.76%,但使用频次非常低,只占语气词使用总频次的 10.3%,所以前四级的5个单词在新闻语体中使用最频繁, 是最具有代表性的语气词。 前四级的5个高频语气词的数量少。但使用频次异 常频繁,这就为语气词教学提供了一种科学数据.只要 词数 语气词词例 使用频次 所占介词总频次比例 一级 1 了 1243 65.98% 二级 0 0 0 0 呢 196 10.40% 三级 2 吗 l12 5.94% 吧 70 3.72% 四级 2 啊 69 3.66% 从表中我们可以看出上面每个语气词使用都非常 频繁,所占语气词使用比例都很大,尤其是语气词“了” 是新闻语体中使用频率最高的一个词,所以“了”的用 法在新闻语体中非常重要。因此掌握这些高频语气词 对语气词教学十分重要。后两级语气词的使用情况请 参照附录。 语气词是虚词的一种,是由动词演化而来的.另外据 前人的研究,虚词以单音节为主,但是现代汉语有双音化 趋势,虚词作为封闭类的一种,从音节数量来看如何分布 呢?根据语料库的统计显示,语气词主要有三种:单音节. 双音节两种,其具体分布的统计结果如下: 表5单音节、双音节语气词的比例分布 同数 所占介词 使用频次合计 所占介词使 数目的比例 用频次的比例 单音节介 24 82.76% 1852 98.30% 双音节介词l 5 17.24% 32 1.70% 表6单音节、双音节语气词的频级分布 一级 二级 三级 四级 五级 六级 单音节 1 O 2 2 6 l3 双音节 0 0 0 0 1 4 从表5中可知,语气词主要有单音节和双音节两 种,无论是在数量上还是在使用频次上,语气词都是 以单音节为主,双音节使用很少,从而再次验证了虚 词的使用以单音节为主,单音节词数量少。但使用频 繁的结论。 从表6中可知,前四级的5个高频语气词全是单音节。 没有双音节,而在后两级低频词中,双音节词的使用才出 现,从而再次说明语气词的使用以单音节为主。 五、语气词的位置分布及其语气类型的统计 黄伯荣认为,语气词通常用在句末,表示陈述、疑问、 祈使和感叹等语气,又可以用在句中表示停顿。孙汝建根 据所处位置把语气词分为了句中语气词和句末语气词。 根据这些观点,本文对前四级高频语气词在句中的分布 125 2Ollg-12 ̄号下旬刊文教 :料 及其所表示的语气类型进行了详细统计.来发现其中的 一些规律。 但据实际语料统计,情况并不如此简单,语气词在语 料库中分布灵活,一是同一个语气词经常多次用在一个 小句中,本文一律按出现次数进行统计。二是由于标注原 因,语气词位于句首成为成分,黄伯荣认为语气 词附着性强,只能附着在句子或别的词语后面,起一定的 语法作用,不能使用,所以这些句首语气词其实都是 叹词,只是由于标注错误而成,在本研究中为了保持与统 计数据的一致性,把这一类统一归入感叹语气一类。三。 在句中位于其他词之后的语气词,一律按黄伯荣的观点, 把他们归入表停顿一类中。 本研究利用语料库检索软件将包含每个语气词的 小句给提取出来,然后人工对所有例句进行统计分析, 由于前四级语气词极具典型性,所以本文只对前四级语 气词进行了详细统计,统计内容包括:1.语气词分布的 具体位置:句中还是句末,2,语气词在句中表停顿,在句 末表示陈述。疑问、祈使和感叹的具体情况。3,和其他语 气词连用的情况。由于语气词在语料中的实际分布很复 杂,所以对检索出的介词的语法功能及位置在语料库中 的实际分布,本文在此只做一了粗略统计。统计的具体结 果如下: 表7语气词位置分布及语气类型表 句中 句末 总 表停顿 陈述语气 疑问语气 祈使语气 感叹语气 词 次 次数 比例 次数 比例 次数 比例 次数 比例 次数 比例 (%) (%) (%) (%) (%) 了 1243 7 0.6 1l85 95.3 9 0.7 0 O.0 42 3 4 呢 196 2 1.O 16 8.16 144 73.5 0 O 34 17.3 吗 112 O O O 0 108 96 4 0 O 4 3.6 吧 70 5 7.1 17 24.3 10 14.3 35 50 3 4.3 啊 69 9 l3.0 13 l8.8 2 2.9 5 7.2 40 58.O 从表7可以看出, (1)从整体看,新闻语体中高频语气词主要分布于句 末。也可以分布于句中表示停顿,但总体来说以陈述语气 为主。 (2)从局部看,语气词以“了”为主要语气词,而“了” 又以表示陈述语气为主,这也反映了新闻语体的句类以 陈述句为主。另外“了”、“吗”和“呢”用法比较集中,而 “吧”和“啊”用法相对比较分散,可以分别表示陈述、疑 问、祈使和感叹语气。这些数据也可以为对外汉语教学和 学习提供帮助.在介词教学中可以对“了”、“吗”和“呢”的 126 关键用法进行重点教学,而对“吧”和“啊”的用法要进行 详细的归纳总结,然后进行教学。 六、结语 语气词的研究很多,但统计学上的研究却很缺乏,而 大型语料库和计算机检索软件的出现,为语言统计提供 了基础。基于语料库的语言统计研究大大加强了语言研 究的科学性.不仅为汉语教学与汉语学习提供帮助,而且 还可以促进语言研究的深入,揭示汉语规律,促进人们对 汉语的了解。本文虽然在语料库的基础上进行了上面的 统计工作.但是由于某些原因统计数据仍然过于粗略,需 要进一步研究,而且上面提出的数据也需要进一步研究, 如本文的统计数据与刑红兵《现代汉语词类使用情况统 计》中出现不同的原因是什么,由上面的统计数据是否可 以看出语气词使用有着独有的语言机制等,这些都需要 进一步研究 附录:后两级语气词词频表 语气词 词频 语气词 词频 语气词 词频 语气词 词频 语气词 词频 语气词 词频 呀 40 啦 26 也 24 也好 12 嘛 l2 矣 l1 哩 10 也罢 7 呵 7 哟 6 哇 6 而已 6 罢了 6 乎 5 哪 3 焉 2 兮 2 么 2 呗 2 呐 1 喽 1 来 1 否 1 不成 1 参考文献: [1]刑红兵.现代汉语词类使用情况统计[J].浙江师 大学报,1999,(3). [2]聂鸿雁.现代汉语语气词研究述评[J].语文学刊, 2009,(7). [3]孙苹.现代汉语语气词研究综述[J].和田师范专 科学校学报,2007,27,(5). [4]魏红.汉语常用动词的带宾能力考察[J].汉语学 习,2009,(2). [5]王启龙.带宾形容词的统计分析[J].语言教学与 研究,1995,(2). [6]黄伯荣,廖序东.现代汉语[M].北京:高等教育出 版社.2002. [7]朱立迎.新闻语体与文艺语体言语功能之差异性 [J].昆明学院学报,2010,32,(1). [8]陈金中.试论新闻报道的语体特点[J3.成都教育 学院学报.2006.20,(6). 指导教师:顾文涛 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuoyibo.net 版权所有 湘ICP备2023021910号-2

违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务