测验反映理论(IRT)是一种在心理测量学和教育评估中广泛应用的方法,它允许我们从个体对测试项目的响应中推断其潜在能力水平。BILOG-MG(Birnbaum的双参数逻辑模型-广义版)是一款专门用于分析IRT模型的软件,尤其适用于等值分析和选择。
在BILOG-MG的使用中,我们可以看到几个关键概念。"yan2"、"engA"、"engC"和"yan3"可能是不同的测验版本或子集,而"equating"指的是将这些不同版本的测验进行等值处理,确保它们可以用来比较不同群体的能力水平。例如,"Vertical equating(铆测验等值方法)"是指在不同测验形式中包含一组共享的试题,通过对这些试题的响应来校准不同组被试的能力差异,进而建立测验间的等值关系。
在提供的例子中,研究者关注了三个专业(教育学、应用心理学、心理行知)的学生,他们参加了相同的大学统计课程但考试时间不同且试题不同。通过将不同专业间的试题重叠,比如教育学专业的后10题与应用心理学专业的前10题相同,以此类推,可以进行能力等值比较。BILOG-MG可以分析这40个题目的参数,并估计各组的能力分布。
在IRT参数估计过程中,"The item parameters estimates"指的是对每个项目的难度(物品参数)和区分度进行估计,这些参数反映了项目对不同能力水平的考生的敏感程度。"The ability distributions of the groups"则关注于各组学生的能力分布,通过"Group 2 serves as the reference group in the calibration of the items",我们可以得知第二个专业被用作校准的参考标准,能力估计(EAP)是基于第二阶段后验分布的信息计算的,并通过指定RSCTYPE=3在SCORE命令中进行标准化,使得能力值的均值为0,标准差为1。
当面临不同类型的记分题(二元记分和多元记分)时,如"上面对整个期末测验进行等值的问题",BILOG-MG可以处理这种情况。假设有两个学院的英语水平需要比较,尽管涉及各自的专业英语,但听力和词汇部分的题目是相同的。在这种情况下,可以通过IRT进行等值分析,比较两个学院的得分,以确定他们的相对英语水平。
此外,"Rasch Dichtomous Model"是Rasch模型的一个二元变体,该模型假设每个项目只有两种可能的响应(正确或错误)。"Datafile gnt1.dat"可能是BILOG-MG的数据输入文件,而"Format id 1-7 responses 8-32"定义了数据文件中的变量格式,表明ID编号在1-7列,响应数据在8-32列。
提到的概念图任务涉及到物理学的一些核心概念,如力、冲量、转动惯量等,这可能是另一个使用IRT分析的评估场景,可能涉及多级记分,如根据学生理解和掌握知识的深度来赋分。
BILOG-MG是通过IRT进行等值分析的强大工具,能帮助研究者处理不同形式的测验数据,比较不同群体的能力,并估计试题和被试的能力参数,广泛应用于教育和心理学领域。