如何分析考试质量
(一)传统考试统计理论的缺陷
个体差异的普遍存在,使“因材施教”成为教育学的理想教育原则。虽然在现实中,我们很容易“...把表达不清楚思想的天才和表达清楚思想的白痴区分开来——前者通过计算和结论表现出对科学的深刻理解,但不可能‘说出来是什么样子’;后者看似充满了恰当的词语,却没有相应的能力去运用这些词语所代表的思想;也就是说,一个好的教育工作者,很快就会以他多年的教学经验来判断学生的天赋和潜力。然而,借助正式测试往往很难达到预期的效果。因为现在的学业成绩测验和智力测量主要测量学生能够有意识提取的外显记忆知识和利用再认或再生产的方式运用这些知识的能力,而很难测量学生内隐学习和内隐记忆的无意识加工能力,但这种内隐加工能力确实存在,并且对学生的学习和基本心理素质的形成有很大的影响。这种加工能力的测量将有助于学生充分了解和因材施教,因为评价的目的不是给学生贴上好坏的标签,而是将孩子置于一个合适的教育环境中,帮助学生尽可能地扬长避短,在加强外显记忆能力训练的同时,注意开发其内隐心理潜能,进行多方向、多方面的综合训练。
经典测验理论在整个测验的层面上分析测验结果,忽略了个体差异和不同的项目反应模式,混淆了同一测验分数所包含的不同特征。研究表明,相同数量的正确反应很可能是不同反应模式的结果,而这些反应模式的差异恰恰反映了真实的心理特征或某种心理定势。现代测量理论中的潜在特征理论及其发展,即项目反应理论,试图克服这一缺点,在一定程度上确定测量结果与那些不能直接观察和测量的心理特征之间的关系。
(二)缺乏专门的统计分析工具
由于考试统计学是一门集教育学、数理统计学和计算机科学于一体的综合性交叉学科,目前市面上的统计分析软件面向各行各业,仅用于教育统计时存在很多功能上的浪费和不足,分析结果过于抽象,无法深入浅出地向用户解释。因此,设计专门的考试统计分析工具是一项迫切的任务。
(三)项目反应理论的兴起为数据分析提供了新的工具
20世纪七八十年代,测量理论最显著的进步是项目反应理论的应用,这是继经典测量理论之后的一个重要的测量里程碑。项目反应理论之所以优于经典测量理论,在于它克服了后者分析数据中“测验分数=能力”的局限性,将能力视为潜在变量,将项目的难度、区分度等重要参数视为项目本身的固有特性,与被测群体无关。目前,该理论主要应用于许多测量领域,如客观性测验、试题题库的建立、不同测验中不同群体能力反应的等效性、跨文化比较等。在发达国家的人才测评数据分析中,项目反应理论已经成为一种常规的分析工具。
二、研究目标和意义
本文首先介绍了应用传统的教育统计方法从宏观层面对试卷进行分析,向教学管理者提供试卷质量和学生整体水平的反馈信息,帮助他们改进教学工作和决策。其次,针对传统教育统计方法的弊端,从微观层面进行分析。运用项目反应理论,重视学生的内隐学习和内隐记忆,通过项目反应模式的差异,突破“测试=能力”的局限,反映学生真实的心理特征或一定的心理定势,对试卷分析结果进行形成性评价。形成性评价(与终结性评价相比,形成性评价能提供更多的日常教学信息)的目的不仅是诊断和评价学生的学习情况,而且是对教学内容和教学方法的回顾和评价。
试卷宏观分析
一、需求分析宏观试卷分析
测试可以在短时间内获得大量关于教学的信息,省时省力,有助于教学管理者做出改进教学的决策,通过试卷的分析获得反馈信息,了解师生之间在教学中存在的问题。有计划地通过考试检查和研究教学措施,是管理者改进教学管理的重要依据,也是管理者掌握教师教学情况并给予具体帮助、指导和控制的重要依据之一。
教学管理者和学科教师可以通过对试卷的宏观分析,掌握学生集体知识水平、集体趋势等重要信息,及时调整教学策略和方法。
二、宏观试卷分析案例
这一层次统计分析的主要内容有:考试成绩的总体分布、平均值、总体难度、差异系数、偏度、标准差及其频数和频数分布、考试难度和区分度的分布、试卷总体构成差异、试卷信度、试卷结构效度和内容效度。
本案例对上海市复旦中学二班第二学期使用的SPSS(社会科学统计软件包)的全量程、标准差、中位数、频数分布、试卷难度、试卷信度、试卷区分度进行了分析。分析结果如下。
(1)全系列
满量程是一组数据中最大值和最小值之差,指两个极值之间的总差距,通常用符号r表示:
(2.1)
满量程可以用来表示数据的分散程度或差异。如果全量程R比较大,说明考生的考试成绩差异比较大;如果R比较小,说明考生的考试成绩比较集中。在这样的情况下,如果能对比一下试题的平均分,就很容易了解所有考生对这个知识点的掌握程度。
根据表中数据,数学试卷总距离为77,说明学生在该科目的考试成绩差异较大,而数学平均分为70.2708,说明整体水平较好但差生太差,要引起重视。语文、历史、政治整体距离小,平均分也高,说明整体水平不错,学生之间差别不大。这也体现了理科和文科的区别。
(2)标准偏差
它表示变量值与其平均值之间的离散程度,是反映事物发展变化平均情况的数值指标。在考试中,可以用来衡量学生成绩的差异程度[3],从而对本次考试的区分程度有一个大致的了解。计算公式为:
(2.2)
其中s是标准偏差;是观察值;是平均值;n是观察值的数量。一般情况下,每次考试的标准差控制在9-15分之间比较合适。如果标准差小于8分,说明分数分布比较集中,试卷的区分度太小,中等难度的题多;如果标准差大于16分,说明结果太分散。
把考试的标准差控制在9-15分之间是合适的,所以数学和外语考试成绩是正态分布的。而政治、语文、物理、化学、历史的分数过于集中,说明试题的区分度不够好。
(3)中值
中学成绩通常采用百分制,所以考试成绩分布没有明显的集中趋势,所以采用中位数测量,而不是模式的统一测量。公式是:
中间位置= (2.3)
以数学试卷为例,众数为60,中位数为71。显示最常见的考试成绩是60,中间成绩是71。这说明试卷难度适中,略低。外语试卷中位数56.5,说明试卷难度大,学生分数普遍较低。历史试卷中位数90,相对简单,学生普遍得分较高。
(4)频率分布
一般情况下,考试成绩接近正态分布,但在实际考试中,考试成绩有以下四种分布模式(如图)。反映试题的不同质量信息。
图2.1频率分布图
其中,图A反映试题难度分布呈正态;在图B中,正态分布反映出低分的人较多,平均分较低,说明难度题占的比重较大;负偏态分布说明高分的人多,平均分高,低难度的题比例大;在图C中,峰形的频数分布显示,学生的分数集中在平均分附近,中难题占很大比重;平峰频率分布显示学生成绩差异较大,易、中、难题比例接近。d图反映的是高低分的集中,试题难度梯度大,中难试题比例小。
以数学试卷为例,全班48名学生的得分频率分布图如下:
从图中可以看出,数学试卷中考生分数的频数分布是负偏态的。说明高分的人多,平均分高,题目难度小。大部分考生得分在60-80之间;10~20到40~50有个断层,就是没有考生考20~40分,说明差生太差了,要特别注意。