《中文天天读》易读性研究
朱勇1 邹沛辰2
(1.北京外国语大学 中文学院,北京100089;2.伦敦帝国理工学院研究生院英国伦敦)
注:本文发表于《云南师范大学学报(对外汉语教学与研究版)》2012年第3期,是我们对于中文语料易读性的一次初浅的探讨,希望引起对泛读语料以及中文读物的重视,欢迎大家关注、选用我们编写的《中文天天读》(5级,英日韩版各10册,外研社出版)。
摘要本文主要通过词汇难度、篇长、语意块长度等影响文本易读性的因子,对《中文天天读》进行了研究,研究得出两个结论:一是《中文天天读》比同类汉语阅读教材的难度要低,基本贯彻了其读物(泛读材料)的定位特点,二是《中文天天读》内部分级具有一定的科学性。文章还对提出的创新性概念“语意块”进行了讨论。作为一次中文阅读材料难易度研究的探索,相信本文可以丰富、推动中文语料易读性的研究。
关键词《中文天天读》;易读性;语意块
因为汉语泛读材料缺乏,鲁健骥、赵金铭等学者曾经呼吁要对此加以重视。作为回应,《中文天天读》于2009年应运而生,她是由北京外国语大学朱勇主编、外语教学与研究出版社出版的集泛读教材与课外读物为一体,专为汉语学习者编写的中文分级读物。《中文天天读》根据语言难度分为五个等级,每级有AB等不同分册,截至2011年底已出齐首批英、日、韩三个语种各十册,法语、意大利语版本也将陆续推出。出版以来《中文天天读》受到了教师和学生的广泛好评,2009年其版权成功输出英国,引进方为世界著名的麦克米伦出版集团(引进版更名为《天天中文》)。泛读材料不同于阅读教材,它们之间难度的差异是一个重要指标,因此本文主要研究《中文天天读》的易读性问题,对《中文天天读》分级是否科学进行以定量为主的研究。
易读性(readability),又称可读性、易懂性,指的是文本易于理解的程度和性质。Gilliland(1972)提出可读性研究包括三个方面:一、通过测量单词的识别速度、错误率及每秒钟眼停次数等得出的阅读难易度(easeof reading);二、通过测量人的兴趣及文本的命题密度和问题风格等指标得到的兴趣或强迫度(interest orcompellingness);三、最通用的,即测算理解程度(ease ofunderstanding),它是通过考察单词或句子的特征,得出文本对于某些读者的难易程度。[1]
易读性测定方法的产生,在很大程度上改变了主观判断语料难度等级的状况,为难度分级起了很好的指导与判断作用。从理论上来讲,对易读性的研究能够丰富完善现有的教材编写理论;从实践上来讲,这些问题的研究不仅对编写高质量的语料资源有促进作用,而且对语言教学也具有重要的意义。
一易读性的影响因素
影响易读性的因素很多,下面我们从文本因素和读者因素两个角度予以简单介绍。
1.1 文本因素
文本因素指的是仅仅涉及阅读材料本身的因素。由于语言本身的复杂性,影响易读性的文本因素有很多。对此有很多学者做过研究。德尚(Dechant,1961)和史密斯(Smith,1977)认为,语料的易读性主要受以下因素影响:词长;不同词的比例;句长;人称代词数;音节数;代词数等等。后来,不断有学者提出更简化的公式,比如以每100词音节数,每句平均单词数为考察标准的Flesch程式,以词长(每词字母数),每100词句子数为考察对象的Mugford程式,以及以每句平均单词数,生疏词百分比为考察对象的Dale-Chall程式等。[1]
除了用公式来衡量阅读材料的易读性,EdwardFry(2002)还提出了一种区分语料难度的新方法,即“分级”(leveling)。[2]EdwardFry认为,虽然易读性指的是文本易于理解的程度,但是在出版研究时,易读性往往被看作一个用公式得出来的数据,它侧重于考察文章的句法难度,词汇难度等客观因素;而分级的方法虽然最后也是要得出一个难度级别的数字,但是它却将“文本因素”(“testsupport”factor)也纳入考虑之列,这就使这种方法不拘泥于只考察客观因素上,也将一些主观因素纳入考虑之列。这些因素包括:(1)内容——文章内容对相关年龄的读者群来说是否合适,读者群是否了解文章内容;(2)插图——图片是否能解释文章内容或者相关词汇;(3)长度——这本书一共有多少页;(4)课程——难度的等级是否和教学方法及大纲相关;(5)语言结构——文章中是否有重复的词汇或词组,是否具有连贯性;(6)鉴定——读者的个人背景和经历是否能有效地理解文章内容;(7)版式——字号页面、行距、布局等对读者理解文章的影响作用。但EdwardFry同时指出,虽然公式和分级是衡量语料易读性的两种不同方法,但并不意味着二者是孤立的,在研究语料的易读性时,可以将二者综合考虑。
在汉语易读性的研究方面,孙汉银(1992)尝试设计了一个易读性公式,认为影响汉语读物可读性的因素主要有字均笔画数,难词比例(1000个常用词以外的词语),每个句子所包含的字数、词数等。张宁志是国内最早在对外汉语教学方面进行易读性公式研究的学者,通过定量分析研究,他认为句长、非常用词比例是影响对外汉语语料易读性的主要因素。[3]另外,王蕾(2008)和郭望皓(2009)对于易读性公式也有专文探讨。
除了上面说的可测量的文本因素之外,易读性还受到文本的字体、字号、颜色等影响。另外,文章是否有导入语,文章中的插图等因素也和易读性有很大关联。但是目前关于这方面的测定很少,还没有相关的程式出现。
1.2读者因素
读者因素指的是读者阅读时的个人因素,包括读者对语料的兴趣、阅读语料的动机、读者的认知能力、认知取向、文化背景知识、对阅读内容的熟悉程度等等。比如,一篇专业文章,如果读者对文章的内容很熟悉,那么即使文章的语言对他来说有困难,读者也可能对文章内容理解得非常好;相反,如果读者对专业方面不了解,那么即使这篇文章的语言难度很低,它也很有可能不易被读者理解。
由于读者因素具有主观性、多样性和不确定性,在研究易读性时,很难将读者因素作为一个变量来考察,读者因素对易读性的影响作用仍需要进一步的研究。
二 《中文天天读》的易读性
2.1研究目的
读物(泛读材料)与阅读教材不同,它主要是学习者在课余时间、在没有教师进行指导的时候,自己进行阅读、学习的材料,因此,在学生水平一定的基础上,读物的难度应该小于阅读教材的难度,这样才能让学习者不会由于阅读材料难度过高而放弃阅读,同时又能保证学习者充足的阅读量。为了具体研究教材与读物难易度与易读性的差异,我们将选取一本汉语阅读教材与《中文天天读》进行对比,另外还将对《中文天天读》内部不同级别间的难易度进行分析,考察其分级的科学性。
2.2研究对象
研究对象一:《初级汉语阅读与写作教程Ⅱ》(刘立新编著,北京大学出版社,2007。以下简称为“《初级Ⅱ》”)。该教程分为初级、中级和高级,每个级别又分为Ⅰ、Ⅱ两册。我们选择调查的是初级本第Ⅱ册,它的使用对象是掌握800—1000个汉语词汇,汉语水平相当于HSK3级或4级的留学生。
研究对象二:《奇妙的中文》(《中文天天读》2A)(朱勇主编,外语教学与研究出版社,2009。以下简称为“《天天读》2A”)。《天天读》2A针对的是已经系统学习过一年到一年半汉语,掌握1000左右词汇量的留学生。
之所以选择这两本材料进行对比,是因为它们所针对的对象具有相似性,因此具有可比性。将教材与读物的易读性进行横向比较之后,我们再对课外阅读材料内部本身的难度分布进行定量、定性分析,研究课外阅读材料的易读性及其分级的科学性。
2.3研究方法与内容
我们主要采用定量的方法,对语料的词汇难度、常用度、以及句子的长度进行统计。与此同时,我们对调查项目也进行了创新,对文章中的平均语意块长度进行了统计。
2.3.1《初级Ⅱ》和《天天读》2A难度对比
从《初级Ⅱ》中随机选择第三、六、九和十二课等四篇课文。输入电脑后先利用《中文助教》[①]对其进行自动分词,根据《现代汉语规范词典》、《学汉语词典》对自动分词进行人工校对;然后统计出各篇文章中的甲级词、乙级词、丙级词、丁级词以及超纲词的比例;而对《天天读》2A则进行穷尽统计。最后根据词汇难度以及句长,对《初级Ⅱ》和《天天读》2A的难度进行对比。
需要说明的是,《中文助教》在自动分词时有时不能根据上下文语境对语意进行自动识别,在某些情况下不能准确地分词,如“白天鹅”,既可以分成“白天/鹅”又可以分成“白/天鹅”,究竟哪种分法是正确的,要根据上下文中来定。而《中文助教》现在不能做到这一点。因此,我们要对这些词的自动分词进行人工干预。对于一些有争议的词,如短语词,我们选择以《现代汉语规范词典》、《学汉语词典》两本词典作为标准。
2.3.2《天天读》内部分级的科学性
为了衡量《天天读》内部分级的科学性,我们先对《天天读》的2A、2B和3A中的文章总字数、平均句长、超纲词出现的频率等进行统计,再将不同难度级别文章的统计数据进行对比。我们还让留学生阅读《天天读》2B的文章并判断其难度,将统计结果与学生的实际感受进行对比。通过分析,探讨《天天读》的难度分级,并分析影响易读性的因子。
2.4研究结果
2.4.1《初级Ⅱ》与《天天读》2A对比
首先,我们利用《中文助教》将两书中词语的等级分布进行统计。统计结果如下:
表1《初级Ⅱ》和《天天读》2A词语分布
教材 项目 | 《初级Ⅱ》 | 《天天读》2A |
甲级词 | 41.81% | 63.05% |
乙级词 | 23.04% | 20.09% |
丙级词 | 7.17% | 4.55% |
丁级词 | 6.31% | 2.35% |
超纲词 | 21.67% | 9.97% |
从表1可以看出,这两本书都注意控制词汇的难度,将60%以上的词汇集中在甲级词及乙级词区域,使初学者在阅读时不会觉得文章难度过大。但是二者在词汇难度的分布上也存在一些差异,其中最重要的就是两本书甲级词所占的比例。《天天读》2A中甲级词比例超过60%,比《初级Ⅱ》高出21.24%。另外一个明显的差异是超纲词比例。由表1可见,虽然二者都是针对汉语初学者,但《初级Ⅱ》的超纲词比例占21.67%,比《天天读》2A高出11.7%。从这两个明显的差异来看,在读者水平一定的情况下,《天天读》的难度比《初级Ⅱ》的难度要低不少。
其次,我们也将文章的总句子数以及平均句长作为研究易读性的一个重要指标。所采用的具体测量方法是:从《初级Ⅱ》中随机选取几篇文章,对《天天读》2A我们则进行了穷尽研究,统计其总字数、句子数以及语意块数,从而算出平均每篇句子数、每百字句子数,平均句长以及平均语意块长度。统计结果如下:
表2《初级Ⅱ》和《天天读》2A平均篇长等统计
教材 项目 | 《初级Ⅱ》 | 《天天读》2A |
平均篇长(字) | 459.75 | 156.44 |
每篇平均句子数 | 27.75 | 8.88 |
每百字句子数 | 6.04 | 5.68 |
平均句长(字) | 16.57 | 17.62 |
平均语意块长度(字) | 7.33 | 7.19 |
从每百字句子数、平均句长和平均语意块长度来看,二者相差不大,都将句子的长度和语意块长度控制在一定的范围内,体现了汉语初级语料的特点。但是我们也可以看出二者的细微差异。从平均句长来看,《天天读》2A比《初级Ⅱ》略多,但是它的平均语意块长度却比《初级Ⅱ》短,说明《天天读》2A很好地运用了短句来帮助学习者理解句意。另外,篇长和平均每篇句子数也是一个指标,一般来说篇长越长难度越大,句子数越多难度越大。从篇长和平均每篇的句子数来看,二者差距很大,《初级Ⅱ》中平均每篇课文有459.75字,27.75个句子;而《天天读》2A平均每篇仅有156.44字,8.88个句子。可以看出,《天天读》的难度要低于《初级Ⅱ》。
2.4.2《天天读》2A、2B、3A对比
为了探索《天天读》自身的难度分级情况,我们对《天天读》2A、2B、3A进行了比较。比较的时候主要选取词汇难度作为调查指标。三本书的词汇难度统计结果如下:
统计表明,三本书的词汇分布大多集中在甲级词,每本书甲级词所占总词汇的比例都超过50%,有效地控制了词汇难度。除甲级词,比例最大的是乙级词,然后是丙级词、丁级词,体现了初级读物的特点。除了相同点,我们还可以看出三本书在词汇难度分布上的不同之处:三本书甲级词比例呈现了缓慢下降的趋势,而乙级词、丙级词、丁级词以及纲外词的比例则有上升的趋势,词汇难度的重点开始由甲级词向乙级词、丙级词和丁级词转换。这表明三本书的难度逐渐出现了变化,有增加的趋势。三本书同是针对汉语初学者的读物,但是即使都是初学者,他们的水平还是存在一些差异,因此编者在编写读物的时候,根据初学者内部的水平差异,将读本的难度等级进行了逐级划分,这样更有利于学习者选择适合自己的读本。
但是词汇并不是区分语料难度的唯一标准,我们在调查三个读本的难度差异时,又选取了篇长、句子数、句长和语意块作为指标对三个读本进行了比较。结果如下表:
表3《天天读》2A、2B、3A平均篇长等的比较
教 材 项 目 | 《天天读》2A | 《天天读》2B | 《天天读》3A |
平均篇长(字) | 156.44 | 222.64 | 344.12 |
平均每篇句子数 | 8.88 | 12.48 | 15 |
每百字句子数 | 5.68 | 5.61 | 4.36 |
平均句长(字) | 17.62 | 17.84 | 22.94 |
平均语意块长度(字) | 7.19 | 8.28 | 8.48 |
从表3可见,随着《天天读》难度等级的增加,每篇文章的总字数出现了上升趋势,由2A中的平均每篇156.44字上升到2B中的222.64字,再到3A中平均每篇344.12字。表现出相同趋势的还有平均每篇文章的句子数、平均句长。而每百字的句子数,则出现了成梯度下降的趋势。随着读者阅读能力的提高,他们可以更好地将汉字组成词、将词组成词组,这样就扩大了短时记忆组块的长度,基于这一点,随着难度等级的增加,文章的平均语意块长度也有了增加。统计数据从篇长、句长和平均语意块长度方面证明了三本书在难度上的有序性差异。
2.4.3统计数据与学生实际感受的对比
为了判断我们对读物定量分析的结果是否科学,是否和学习者的感受想吻合,我们安排一些留学生阅读《天天读》2B中的文章,然后让他们对文章的难度等级进行判定。参与调查的是两个平行班,一共14名汉语专业一年级(下)的留学生,其中1名印度尼西亚学生,3名日本学生以及10名韩国学生。之所以考察这两个班,是因为他们的汉语水平与《天天读》2B较接近。调查读本是《天天读》2B中的24篇文章,每篇文章后面都有5级难度选项,其中1级为最容易,5级为最难。本文第一作者作为两个班的任课教师,让学生将这些文章作为课堂辅助阅读材料进行阅读,学生阅读完文章之后都要对文章的难度进行主观评定。本次调查从2009年3月开始到5月末结束。经过我们的后期统计,学生对文章难度的评定结果如下。
表4文章难度评定情况
文章 | 难度等级 | |
最高难度等级 | 《钱越多就越快乐吗?》 | 2.57 |
最低难度等级 | 《最好的消息》 | 1.79 |
全书平均难度等级 | 2.18 |
表5 文章难度范围情况
难度范围 | 课文数 | 占总课文数的百分比 |
1.7——2.0 | 2 | 8.3% |
2.0——2.3 | 18 | 75% |
2.3——2.6 | 4 | 16.7% |
从留学生的实际感受来看,《天天读》2B的平均难度等级为2.18,难度等级属于初级向中级过渡的阶段,基本适合《天天读》2B的目标读者。从难度范围上来看,《天天读》2B中文章的难度分布在1.79到2.57这一范围之内,整体上说,这一范围都属于初级向中级过渡的阶段,但在具体难度上,不同文章又各有差异:有四分之三的文章,其难度在2.0到2.3这一范围内,占了总课文数的绝大部分;同时又有8.3%和16.7%的文章难度处在1.7到2.0以及2.3到2.6这两个范围内。这样的难度分布,既保证了《天天读》2B的整体难度适合目标读者的汉语水平,又使其内部难度有一定梯度,有助于学习者学习。该调查从学生的实际感受这一角度证实了我们前面定量分析结果的准确性以及《天天读》2B难度分级的科学性。
三 关于语意块的讨论
本文提出了一个新的概念——语意块,这里稍作讨论。
我们知道,句子是最大的语法结构单位,根据句子的语气可将其分为陈述句、疑问句、祈使句和感叹句四种。因此,在划分句子的时候,我们主要采用传统的划分句子的方式,即以句号、问号和叹号三种符号为分割句子的标准。
但是我们认为,仅仅以句号、问号和叹号三种符号作为界定句子的唯一标准来研究读物的易读性是不全面的。因此,我们同时考虑了一些其它因素。读者在进行阅读时,运用的是短时记忆对文章内容进行加工。人的短时记忆的容量是7±2个单位。对于汉语初级学习者来说,一个单位多指一个汉字或者一个词语。读者在阅读时,如果在7±2个单位范围内发现了标点符号,他们就会在这一范围内对所看到的语句进行加工,形成一个整体的概念。也就是说,读者对所读材料的加工,不一定是在读完一个完整的句子之后才进行的,而是在这之前就形成了一个个的组块。因此,如果一段文字能够在7±2个单位内表达一个清晰的意义,即使后面不是句号、问号和叹号,我们也可以将其看作成一个完整的语意块来进行统计,这就是“语意块”的内涵。
此外,如果文章中某些句子有明确的分项,并且能够表达一个完整的意义,那么,即使句末是分号或其它符号,我们也将其算作一个句子。例如下面这样一段话:
有一天晚上,你一个人开车,突然,你发现前面有三个人招手,他们都请你停车,这三个人是:一个受伤的老人;一个救过你的医生;一个你喜欢的人。
在这段话中,“有一天晚上,你一个人开车”中间完全可以不用逗号也能表达相同的意义。但是如果不加逗号,语句的长度会增加很多,词语数目有可能会超出一些读者的短时记忆范围,理解难度也随之增大。而加上一个逗号,语句所要表达的意义依然清晰,同时也将字词数目控制在了读者短时记忆的范围内,所表达的意义也更加清晰、易懂。因此我们认为,“有一天晚上,你一个人开车”和“有一天晚上你一个人开车”的难度是有区分的。从这个角度考虑,我们提出了语意块这个概念,将“有一天晚上”,“你一个人开车”等类似情况看作单独的语意块来考虑、统计。
另外,对于有明确分项的句子,如“一个受伤的老人”,“一个救过你的医生”,“一个你喜欢的人”,它们的逻辑划分非常清晰明确,我们也将其看作单独的语意块来统计。
从调查结果来看,《初级Ⅱ》和《天天读》2A的平均语意块长度分别为7.33和7.19,从把字作为单位角度来看,两本书都将平均语意块长度控制在7±2个单位之内,有助于读者在短时记忆控制范围内理解文章内容。而随着读物难度的增加,《天天读》2A、2B、3A在平均语意块长度上也有所增加,从7.19到8.28再到8 .48,体现了不同难度读物的特点。
四 结语
通过前面的比较,我们发现《中文天天读》与同类阅读教材比起来,难度要低一些,其易读性更强。此外通过对《中文天天读》2A、2B和3A的比较,我们可以初步得出《中文天天读》内部分级具有一定科学性的结论。现在中文语料的分级还没有一个明确的标准,分级语料的编写也存在一定的难度,在这种情况下,对汉语语料易读性的研究,能够为材料的编写提供理论依据,并起到一定的指导作用。
参考文献
[1]王蕾.可读性公式的内涵及研究范式——兼议对外汉语可读性公式的研究任务[J].语言教学与研究,2008,(6).
[2]Edward Fry. Readability versus leveling[J]. The ReadingTeacher.Vol.56, No.3,November 2002.
[3]孙汉银.中文易懂性公式[D].北京师范大学硕士学位论文.1992.
[4]王飙.编教软件《中文助教》评述[J]——兼谈水平教材建设构想.国际汉语教学动态与研究.
[①]《中文助教》是一套主要用于编写汉语教材的专业软件,它能够将所输入的文章所有词汇按照HSK等级进行分类,并能对课文生词提供使用频度分析,即SVL常用度等级。它所提供的词汇控制办法,对教材向体系化、规范化、科学化方向的发展有重要意义。[4]