没有合适的资源?快使用搜索试试~ 我知道了~
两级相似度计算在主观题机器阅卷中的应用1
需积分: 0 0 下载量 198 浏览量
2022-08-04
14:48:12
上传
评论
收藏 280KB PDF 举报
温馨提示
试读
3页
2.1 词语级相似度计算 2.2 语句级相似度计算 2.2.1 语句缩句 2.2.2 语句骨架成分抽取 2.2.3 语句级相似度计算
资源详情
资源评论
资源推荐
两级相似度计算在主观题机器阅卷中
两级相似度计算在主观题机器阅卷中两级相似度计算在主观题机器阅卷中
两级相似度计算在主观题机器阅卷中的
的的
的应用
应用应用
应用
秦学勇
秦学勇秦学勇
秦学勇,
,,
,张润梅
张润梅张润梅
张润梅
(安徽建筑工业学院电子与信息工程学院,合肥 230601)
摘
摘摘
摘
要
要要
要:
::
:针对问答题类文字描述性主观题机器阅卷的复杂性和困难性,提出一种用于机器阅卷的两级相似度计算算法。综合考虑答案的关
键词、句子语法和语义信息,并结合分数微调规则设计算法。实验结果表明,该算法在词语级系数 α 取值约 0.7 时,阅卷系统具有最低的
无效阅卷比例和较快的速度,符合人工阅卷的要求。
关键词
关键词关键词
关键词:
::
:相似度计算;向量空间模型;机器阅卷;自然语言处理;依存文法;规则
Application of Two Level Similarity Computation
in Subjective Machine Marking
QIN Xue-yong, ZHANG Run-mei
(School of Electronic and Information Engineering, Anhui University of Architecture, Hefei 230601, China)
【
【【
【Abstract】
】】
】According to answers’ keywords, sentence grammar semantic informations and adjusting rules, this paper proposes a two level
similarity computation algorithm which integrates the advantage of word level and sentence level similarity computation. It focuses on questions of
text descriptive subjective examinations complexities and machine marking difficulties. Experimental results show that the system can obtain the
minimum invalid marking ratio and fast speed, while word level coefficient α value is about 0.7. This algorithm complies with the effect of manual
marking better.
【
【【
【Key words】
】】
】similarity computation; vector space model; machine marking; natural language processing; dependency grammar; rule
DOI: 10.3969/j.issn.1000-3428.2012.11.083
计 算 机 工 程
Computer Engineering
第 38 卷 第 11 期
Vol.38 No.11
2012 年 6 月
June 2012
·
··
·开发研究与设计技术
开发研究与设计技术开发研究与设计技术
开发研究与设计技术·
··
·
文章编号
文章编号文章编号
文章编号:
::
:1000—
——
—3428(2012)11—
——
—0274—
——
—03
文献标识码
文献标识码文献标识码
文献标识码:
::
:A
中图分类号
中图分类号中图分类号
中图分类号:
::
:TP391
1
概述
概述概述
概述
计算机技术的飞速发展推动了传统考试方式正逐步向现
代的考试方式转变,即试卷由纸质试卷向电子试卷转变,阅
卷方式由人工阅卷向机器阅卷转变。国外很多学者自
20
世纪
60
年代就开始研究基于任意文本答案的主观题计算机自动
阅卷技术,取得了一定的成果,并研制出一些实用的系统。
国内关于该课题的研究起步较晚,主要是通过词语的相似度
计算来获得语句的相似度。词语相似度计算主要采用关键词
匹配、词语矢量相似度计算、词语语义相似度计算等方法处
理。文献
[1]
基于模糊数学中隶属度进行词语相似度计算;文
献
[2]
基于《知网》
[3]
进行词语相似度计算;文献
[4]
根据词语
之间的语义信息提出了基于语义的主观题阅卷算法;文献
[5]
运用匈牙利算法建立句子和句群的相似度计算模型;文献
[6]
采用矢量来表示答案文本进行词语级相似度计算。由于中文
自然语言处理的复杂性,在进行文本相似度计算时应充分考
虑词语的相似度,同时也应该密切关注语句的语法结构,并
结合考试过程的特点制定一些规则进行分数调整和约束,本
文以该思想为基础,提出一种两级相似度计算方法,即相似
度由词语级和语句级两级相似度加权求和来确定,使得机器
阅卷结果更加接近人工阅卷效果。
2
两级相似度计算
两级相似度计算两级相似度计算
两级相似度计算
相似度是描述
2
个事物或者个体在形式或者内容上的相
似接近程度,是一个复杂的概念,在哲学、语义学和信息理
论中得到广泛研究和讨论。在主观题自动批改系统中,相似
度表示标准答案和学生答案在表达内容意思上的符合程度,
计算结果用
0~1
之间的数值来表示,数值越大表示学生答案
越接近标准答案,反之越远。
2.1
词语级相似度计算
词语级相似度计算词语级相似度计算
词语级相似度计算
词语级相似度计算首先对答案进行中文分词、停用词去
除和同义词替换,然后对处理后的答案文本采用向量空间模
型
(Vector Space Model, VSM)
来表示
[7]
。答案是相互独立的词
条组
{
T
1
,
T
2
,
…
,
T
n
}
的集合,并且根据词条组
T
i
在文本中的重要
程度赋予其一个权值
W
i
(
T
i
在文本中的重要程度越高,
W
i
的
值越大
)
,其中,
W
i
由
TF/IDF
方法确定,于是文本匹配问题
就转化为向量空间中矢量的匹配问题。本文采用夹角余弦方
法来进行相似度计算,计算公式如下:
2 2
( )
( )
i i
i
i i
i i
similarity
wstuans wstdans
wstuans wstdans
⋅
= =
×
×
∑
×
∑ ∑
stuans stdans
stuans,stdans
stuans stdans
其中,
stuans
、
stdans
表示学生答案和标准答案向量,
wstuans
i
和
wstdans
i
为向量
stuans
和
stdans
中的第
i
个分量的权值。
2.2
语句级相似度计算
语句级相似度计算语句级相似度计算
语句级相似度计算
VSM
主要考虑统计答案中词的信息,通过使用
TF/IDF
方法进行相似度计算,并没有考虑到词序、句子的语法和语
义信息。也就是说,在词语级相似度计算中即使句子的语法
有问题,或者说语义有问题,只要相关的关键词在答案中出
现并且和位置无关,那么就会认为
2
个答案是相似的。所以,
词语级相似度计算虽然简单直观并且效率较高,但是有些时
基金项目
基金项目基金项目
基金项目:
::
:安徽省高校优秀青年人才基金资助项目(2009SQRZ101)
作者简介
作者简介作者简介
作者简介:
::
:秦学勇(1974-),男,讲师、硕士,主研方向:人工智
能,自然语言处理,数据挖掘;张润梅,教授
收稿日期
收稿日期收稿日期
收稿日期:
::
:2011-10-14 E-mail:
::
:qinxueyong@aiai.edu.cn
萱呀
- 粉丝: 26
- 资源: 354
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0