您现在的位置: 首页 / 科研进展
科研进展

郭桃梅课题组在《Behavior Research Methods》期刊上发表汉语小学生字词数据库揭示汉语字词属性对汉语儿童和成人字词阅读的影响作用

2023年8月,北京师范大学认知神经科学与学习国家重点实验室郭桃梅课题组在《Behavior Research Methods》发表题为“A large‑scale database of Chinese characters and words collected from elementary school textbooks”的研究论文。该研究基于教育部2016年发布的小学语文教材,构建了一个包含2999个汉字和2182个词语的字词属性,以及不同年龄个体的命名反应时和正确率的大型数据库。


众所周知,字词数据库作为研究语言习得和加工的重要工具,不仅从正字法、语音和语义等不同层面为研究人员提供全面的词汇属性,而且可以通过提供高质量、可靠的规范数据,促进词汇习得和加工的研究。已有的汉语字词数据库大多集中在成人阅读材料上,而较少涉及儿童阅读材料。此外,字词属性如何影响不同年龄读者的字词阅读加工也有待进一步探讨。


本研究建立了一个基于教育部官方发布的小学1-6年级语文教材的大型汉语字词数据库,收集了这些字词的笔画数、部件数、语义数、语音特征、结构和频率等多层次的词汇特征,同时采用命名任务收集了学龄儿童(3-6年级:3-4年级为低年龄组,5-6年级为高年龄组)和成人的命名反应时及正确率数据,揭示了影响汉语字词阅读加工的因素,以及这些因素对不同年龄个体字词阅读加工的影响。


首先,基于对所有字词属性的描述性统计分析,我们发现小学阶段学习的汉字(图1)和词语(图2)的视觉复杂性随着年级的增长而增加,语义丰富度和频率则有下降的趋势。


图1.jpg

图1. 数据库中汉字属性随年级的变化趋势。从左到右,从上到下依次为笔画数、部件数、发音数、义项数、教材频率及在频率数据库 Cai & Brysbaert (2010)中的频率


图2.jpg

图2. 数据库中词语属性随年级的变化趋势。从左到右,从上到下依次为:词语包含的汉字数、词语的发音数、义项数、笔画数、教材频率及在频率数据库 Cai & Brysbaert (2010)的频率


其次,通过回归分析,我们发现,频率、视觉复杂性、语义和语音属性、结构类型和语音规则性是影响个体字词阅读加工的重要因素。


在汉字水平上,我们发现,汉字的习得年龄(即字词出现的教材册数)、频率和汉字结构(是否左右结构)对高、低年龄儿童和成人的命名反应时都有显著的影响作用,但是在组间也存在差异。回归系数的差异比较结果显示:1)汉字习得年龄对小学儿童的影响效应大于成人,2)频率效应在成人被试中更突出,3)汉字结构对低年龄儿童和成人的影响效应之间存在显著差异(表3)。


表3. 三组被试在汉字水平的反应时回归系数比较结果

图3.jpg

注释:表中的三个变量从上至下为:汉字出现的册数(代表习得年龄)、频率、以及结构 (是否为左右结构)


在词语水平上,我们发现,词语习得年龄、词语频率(基于Cai & Brysbaert (2010)的电影字幕频率数据库)、词语首字和第二个字的频率(教材频率)以及词语的总笔画数对三组被试的命名反应时都有显著的影响作用。之后对三组被试回归系数的差异比较结果显示,习得年龄、词语第二个字的频率和词语的总笔画数在低年龄组儿童中的效应显著大于另外两组;词语频率和词语首字的频率在两组儿童中的效应显著大于成人组(表4)。正文部分我们对这些结果进行了讨论。


表4. 三组被试在词语水平的反应时回归系数比较结果

图4.jpg

注释:表中的五个变量从上至下为:词语出现的册数(代表习得年龄)、频率、首字的教材频率、第二个字的教材频率、以及词语的笔画数


总体而言,我们的数据库不仅提供了小学阶段字词的词汇属性,描述了字词属性随着年级增长的变化趋势,还揭示了不同的字词属性对不同年龄个体字词阅读加工的影响。本研究为更好地理解上述词汇变量在学龄儿童和成人词汇加工中的影响提供了实证证据,也有助于促进小学语文字词教学。该数据库可以在Open Science Framework (OSF) (https://osf.io/ynk8c/?view_ only=5186bd68549340bd923e9b6531d2c820)上供研究者下载使用。


该研究得到了国家自然科学基金、国家重点基础研究计划项目、中央高校基本科研业务费专项资金和北京师范大学学科交叉建设项目资金等资助。由郭桃梅课题组2023届博士毕业生张曼、美国印第安纳大学博士生刘泽平、密苏里大学的Mona Roxana Botezatu助理教授、郭桃梅课题组2023届硕士毕业生党钦普、2022届硕士毕业生苑启明、科研助理韩金灼以及认知神经科学与学习国家重点实验室的刘丽教授和郭桃梅教授等合作完成,通讯作者为郭桃梅教授。


文章链接和信息如下:

Zhang, M., Liu, Z., Botezatu, M.R. et al. A large-scale database of Chinese characters and words collected from elementary school textbooks. Behav Res (2023). https://doi.org/10.3758/s13428-023-02214-1