如何计算一份试卷的难度和区分度

试卷分析的四个维度:难度、区分度、信度和效度。

1.难度难度是指试卷的难度，是衡量试卷质量的重要指标参数。它与区分度一起影响和决定了试卷的区分度。一般认为试题的难度指数在0.3-0.7之间，整个试卷的平均难度最好在0.5左右，0.7以上0.3以下的题不要太多。1，难度的两种定义:

(1)P=1—x/w x是一道题的平均分，W是这道题的满分。在这个定义中，难度值小表示试题容易，值大表示试题难，最小值为0，最大值为1。

(2)在p = x/w的定义中，难度值小表示试题难，值大表示试题容易，最小值为0，最大值为1。

2.难度计算:

(1)主观题难度

一个基本公式法:p = 1-x/w

b极端分组法P=1—(XH+XL)∕2W XH:高分组平均分(前27%)，XL:低分组平均分(后27%)。

(2)客观试题的难度

一个基本公式法:p = 1-r/n r为正确答案数，n为总数。

b极端分组方法:P=1—(PH+PL)∕2.

PH=RH/n称为高分组通过率，RH:高分组答对的人数，n:总人数的前27%。PL=RL/n称为低分组通过率，RL:低分组正确数。

第二，区分度是区分考生能力水平的指标。高区分度可以拉大不同水平考生的分数差距，使水平高的得高分，水平低的得低分，而低区分度不能反映不同考生的水平差异。试题的区分度直接关系到试题的难度。一般来说，中等难度的试题的区分度更大。此外，试题的辨别力也与考生的水平密切相关。只有当试题的难度等于或略低于考生的实际能力时，其区分度表现才能充分展现出来。判别指数评价:-1.00≤D≤+1.00。区分度指数越高，试题的区分度越强。一般认为，如果判别指数高于0.3，试题是可以接受的。2.区分度的计算方法:基本公式法:d = (h-l) ÷ n (d代表区分度指数，h代表高组答对问题的人数，l代表低组答对问题的人数，n代表一组人数，即高组和低组人数之和)。极端分组法:

(1)主观测试:D = SH-SL ∕ N (WH-WL)

SH:高分总分，SL:低分总分，WH:本题最高分，WL:本题最低分，N为高分(或低分)人数，即占总人数的27%。

②客观题:d = ph-pl，或者d = RH-rl ∕ n

(3)一般也可以用d = xh-XL ∕ x满来计算。XH:某道试题高组平均分，XL:某道试题低组平均分，X满分:该题满分。

第三，可靠性是指测量结果的一致性或稳定性。稳定性越大，评价结果越可靠。相反，如果同一个考生用一套题测试两次，结果第一次是80分，第二次是50分，结果的可靠性就值得怀疑。可靠性通常用两个评价结果的相关系数来表示。相关系数为1，说明试卷等评价工具完全可靠；相关系数为0表示论文完全不可靠。一般来说，要求的可靠度在0.7以上。1.评价信度的方法:(1)重测法，(2)复测法-副标题，(3)半测法，或者:用重测信度、复测信度、内部一致信度来评价。重测信度是指同一组考生在相同条件下对同一张试卷进行两次测试的测试结果的相关系数。复本信度是指用两篇或多篇平行论文在构思、内容、难度、类型、数量等方面进行测试，并评估结果之间的相关系数。内部一致性信度是指试卷中问题之间的一致性，通常分为两部分，然后计算一半试卷与另一半试卷的相关系数。

2.信度系数γxx=ST2∕SX2 ST2称为真实得分方差，SX2是获得的得分方差。信度系数最大值为1，说明测验的信度高，最小值为0，说明测验的信度低。当γxx≥0.70时，该检验可用于组间比较。当γxx≥0.85时，该检验可用于个体间的比较。

效度效度就是一个测试能够测试出它想要测试的东西的程度，也就是测试结果符合测试目标的程度。任何一个测试工具，无论它在其他方面有多好，如果效度太低，测试结果不是它想要测试的(比如用英语试卷测试学生的数学能力)，都是一文不值的。由于心理现象本身的特点，评价的有效性尤为重要。心理是一种精神层面的东西。目前人们还无法直接观察到，只能通过一个人的行为模式或对测试项目的反应来推断其心理特征。比如，智力主要取决于个体对一些问题的反应和对错的结果。有效是一个相对的概念，即有效只有高低之分，没有一切有效和一切无效之分。效度可分为面子效度、内容效度、概念效度、预测效度和* * *时间效度。