测评研究 - 高校英语诊断测评与教学研究

优诊学（高校版）相关测评研究

一、优诊学（高校版）效度研究

阅读诊断测试

作者：上海理工大学孙杭

孙杭（2020）运用基于论证法的验证模式对优诊学（高校版）阅读诊断测试进行了效度研究。通过采用解释/使用论证法（interpretive/use argument approach; Kane, 1992, 2001, 2003），该研究对优诊学5级阅读诊断测试的分数解释和使用的推理链条中最核心的推论进行了验证，主要聚焦于诊断的内容、诊断反馈的理解、诊断反馈的使用及影响三个方面。

该研究采用了混合研究方法，分为两个主要阶段：第一阶段探索了优诊学阅读诊断测试分数是否反映了学生对阅读微技能的掌握情况；第二阶段调查了优诊学阅读诊断报告是否帮助了教师和学生调整教和学。总体而言，研究结果为各个效度推论提供了强有力的支撑证据，在很大程度上证明了优诊学阅读测试可以较为准确地诊断学生的英语阅读能力并促进大学英语的教与学。同时，研究也为如何进一步改良优诊学阅读测试中试题与微技能的对应关系以及诊断报告的形式和内容从而为师生提供更高质量的诊断反馈提出了建议。

写作诊断测试

作者：上海外国语大学潘鸣威吴金杰陈依昵殷敏敏

本研究以社会—认知测试效度验证模型（Weir, 2005）为主要参考框架，着重对优诊学（高校版）写作诊断测试（以下简称为“高诊写作”）在评分效度、效标关联效度、后效效度三个方面的效度加以举证。

在评分效度方面，研究者从高诊写作中的直接测试任务和间接测试任务之间关系的角度探讨了两者的一致性以及运用不同写作测试任务检测学生英语写作能力的互补性。研究发现，总体而言高诊写作的直接测试任务与间接测试任务之间存在中低的显著性相关，且在不同水平组中存在不同程度的相关性。这对进一步明确高诊写作测试任务的意义，提升运用不同写作测试来检测综合写作能力提供了效度证据。

在效标关联效度方面，研究者参照《中国英语能力等级量表》开展标准设定研究，围绕标准设定研究中的过程效度、内部效度和外部效度为高诊写作的效标效度举证，着重探讨高诊写作中说明文和议论文写作测评在依据语言能力标准设定后，同一分数区间所反映的写作能力。标准设定结果表明，同一分数区间所反映的写作能力基本一致，对应《中国英语能力等级量表》五级和六级的写作能力描述，并可在级别内加以细化，因而内部效度得到验证。基于语言特征的文本分析结果对标准设定提供外部效度证据，且能解释不同文体临界分的差异。

在后效效度方面，研究者从学生作为使用者的视角出发，采用问卷和访谈调查方法，研究了学生对高诊写作特别是诊断报告的评价，并得出高诊写作对英语写作学习的部分反拨效应。研究发现，学生对诊断报告的评价积极，多数学生愿意在下一阶段写作学习中使用诊断报告，对其写作学习产生了积极影响。在使用诊断报告的过程中，学生通过诊断报告能够发现不足、了解写作水平、改变学习内容、调整学习方法、明确学习目标。

本研究共分为四个部分：第一部分为高诊写作的基本情况介绍；第二至第四部分分别从以上三个方面报告高诊写作的效度研究，并对高诊写作今后的发展提出了一些意见和建议。由于高诊写作在考生特征、情景效度方面具有较高的同质性，对此作深入研究的意义不大，因此本报告不涉及有关内容，仅在高诊写作的情况介绍中有所提及。

语法诊断测试

作者：中央民族大学胥云

优诊学（高校版）语法诊断测试是外研社自主研发的在线英语语法能力诊断测试，旨在对大学生的英语语法能力进行诊断，判断大学生的语法能力是否会对其阅读、听力、写作和口语能力的提升形成阻碍。该测试通过诊断报告为教师和学生提供有针对性的反馈，明确学生在语法学习上优势和不足，从而帮助教师和学生调整下一步的学习和教学计划。优诊学（高校版）语法诊断测试的考查重点是产出性语法能力，除在测试题型的选择上尽量选用产出性和半产出性题型外，在语法点的选取上重点选择能代表目标受试群体语法能力的语法点以及他们在语言产出时容易出现错误的语法点，不仅考查对语法点的识别和理解，更侧重考查对语法点的运用。因而，在测试开发过程中，研发团队面临的最大难题是如何从众多语法点中选取一定数量的语法点作为考查目标。研究者以Bachman交际语言能力中的组构能力模型作为理论框架，通过参考已有语法测试考查的重点和语法点在语言中的出现频率，借鉴基于语料库的研究结果，提取目标受试群体在语言产出中的语法区别性特征，并对语法教材编辑和大学一线教师进行问卷调查，最终从近百个语法点中选取10个一级语法点（包含29个二级语法点）作为诊断目标，通过重复多次测量每个语法点，估算学习者对该语法点的掌握概率。

试题开发完成后，研发团队通过优诊学（高校版）在线诊断系统收集了来自19所高校46类不同专业的共计1376名大学生于2020年参加在线诊断测试的语法测试成绩、写作测试成绩和作文样本。研究者使用R语言的lavaan包对语法测试结果进行验证性因子分析，考察10个一级语法点与其各自下属的多道题目是否匹配；通过相关分析、回归分析、方差分析等分析语法成绩与作文总成绩、作文语法分项得分、作文复杂度和准确性各项指标的关系，验证语法测试是否能考查受试的产出性语法能力。因子分析结果显示，语法测试信度较好，GFI、IFI、TLI、CFI等指标均比较满意，说明目前试题的10个维度（一级语法点）与其下属题目匹配较好，试题具有良好的结构效度。语法测试成绩与写作成绩以及作文的语法分项分高度相关；回归分析显示语法成绩对于二者均具有显著预测力。此外，语法成绩与语法准确性和复杂度指标均显著相关，方差分析显示高、中、低3个语法水平组的受试在写作的语法准确性和复杂度上呈现显著差异，语法成绩越高，学习者写作的语法准确性越好、复杂度越高，这表明语法诊断测试能够在一定程度上考查到学习者的产出性语法能力。但不同语法水平学习者在写作语法准确性上展现出的差别更明显，这说明相比语法复杂度，语法诊断测试在考查产出性语法能力时对语法准确性预测力更好。

优诊学（高校版）语法诊断测试将考查重点定位在产出性语法能力上，以各个语法点作为诊断测试的分项技能加以诊断，通过重复多次测量每个语法点，估算学习者对该语法点的掌握概率，这种做法是测试领域的首次尝试，优诊学（高校版）语法诊断测试的开发和效度验证首次证明了这一方案的可行性。

分班测试

作者：中国人民大学刘力

目前国内大学英语教学普遍采取分班教学的形式，即：在正式教学开始前，通过分班测试对学习者进行分班和后续教学。高质量的分班测试对整个教学活动起着重要的良性先导作用，更是语言教学能否实现因材施教的先决条件。本研究主要针对优诊学（高校版）分班测试进行效度验证，为测试体系的使用和推广提供实证依据。

研究者采用社会认知效度框架（Weir, 2005）对分班测试进行效度验证，主要探究以下三个研究问题：1）分班测试的理论效度如何？2）分班测试成绩对于学生经过一定时间学习后语言表现的预测力如何？3）测试参与者（学生和任课教师）是如何看待分班测试及测试结果使用的？针对上述问题，研究者采用混合研究法，涵盖两个数据收集阶段：第一阶段数据主要包括1095名非英语专业大一新生入学分班考试成绩、各级别部分学生的有声思维、语言能力自评问卷及半结构式访谈；第二个数据收集阶段包括同一批学生的大学英语课程期末考试成绩（总成绩及写作成绩）、任课教师访谈等。

研究结果表明，首先，分班测试具有良好的内部一致性系数，并且测试可以较好地区分不同语言水平的考生。其次，测试各个部分之间相对独立，具有较好的结构效度。最后，参与学生对于分级结果表示认可，认为自己目前所处的教学班级的教学难度和进度与自身语言水平基本符合，教师所采用的教学方法也能够基本有效地促进其语言水平的发展。任课教师同样对于分级结果表示满意，学生在相应级别的学习能够展现出符合课堂要求的语言表现。

针对分班测试的下一步研究及实践，研究者认为可以考虑将所有考生的自评数据结合考生的分级表现进行进一步分析。此外，分班测试的试题开发应更关注试题试测阶段，尽量减少话题效应对于学生作答的影响，测试也可考虑增加写作相关任务。从促学角度出发，分班测试的结果可以进行进一步分析及反馈，让各级任课教师能够掌握学生整体及其分项技能的基本特征，有助于合理安排课堂教学的难度及进度。

整体而言，本研究能够从效度验证的角度帮助测试使用者和开发者有效地了解分班测试在具体学校情境中的使用情况。在日后的研究中，研究者可考虑选择多个目标学校，针对不同的分班要求等教育情境进行研究。

二、基于《中国英语能力等级量表》的优诊学（高校版）标准设定研究

2020年8月22日～9月10日，优诊学（高校版）完成了听力、阅读、语法、写作诊断测试和分班测试模块基于《中国英语能力等级量表》（以下简称为《量表》）的标准设定，确定了优诊学（高校版）的测试分数与《量表》相关等级之间的对应关系。

优诊学（高校版）是由英语测试领域的权威专家主持设计，外研社自主研发，服务于高校教师和学生的在线英语诊断系统。该系统以《量表》为标准，秉承assessment for/as learning理念，为量表4级至7级水平的大学生提供在线诊断测评，旨在帮助高校学生了解自己英语能力的优势和劣势，确定学习的起点和目标，助力高校教师实施精准教学，并为高校教师的学术研究和专业提升提供支持，推动大学英语教—学—评—研一体化模式的构建。

《量表》是首个面向中国学习者的英语能力标准，于2018年2月由教育部、国家语言文字工作委员会正式发布。《量表》以语言运用为导向，根据循序渐进的原则，构建了多层级的指标体系，将语言能力分为9个级别和3个发展阶段（其中1-3 级为初级阶段，4-6级为中级阶段，7-9级为高级阶段）。量表对各等级的能力特征进行了全面、清晰、详实的描述，为促进英语教、学、测的协调发展及多元评价提供支撑。

基于《量表》的优诊学（高校版）标准设定研究项目共邀请45位国内英语测试与教学领域专家参与，主要为来自《量表》研发团队的专家和具有丰富教学经验的高校教师。

为了保证标准设定研究的科学性、规范性和严谨性，研究团队借鉴国内外主要的语言测试与语言能力标准进行标准设定研究的经验，采用Modified Angoff方法对听力、阅读、语法和分班测试的试题进行标准设定，采用Body of Work方法对写作试题进行标准设定。Modified Angoff方法要求定标专家判断该级别最低能力受试者能正确作答每一题的概率，Body of Work方法要求定标专家基于能力标准中的描述语对学生的作答表现直接进行等级评判。本次标准设定研究过程中，定标专家需要对每道题进行两轮判断，第一轮判断结束后主持人会汇总反馈相关结果，定标专家进行讨论和总结，然后再作出第二轮判断，最终确定分界值。

本次标准设定研究完成了听力、阅读、语法、写作诊断测试和分班测试共21套试卷418道题的标准设定。听力和阅读技能确定了诊断测评基于量表4–7级的分界值，语法技能确定了诊断测评基于量表4–5级的分界值，写作技能确定了诊断测评基于量表4–7级每个级别低中高水平的分界值，分班测试确定了基于量表4–6级的分界值。

基于《量表》的优诊学（高校版）标准设定研究工作顺利完成，是《量表》在促学性评价中加以应用的探索性实践，为优诊学诊断测试和分班测试的分数报告赋予了更多的信息和解释意义，能够帮助教师和学生更好地理解分数所反映的语言能力，帮助学生了解学习过程中的进步与不足，从而制定合理的学习目标，帮助教师更好地依据标准开展针对性教学。