收稿日期! !"#$%"&%!$! 修回日期! !"#$%"'%#/))基金项目! 安徽省自然科学基金资助项目$#-"-"-/R+#$-% !安徽省高校自然科学研究
重点项目$fc!"#';".-%
作者简介!朱刘影$#..(%%&女&安徽泗县人&硕士&主要研究方向为自然语言处理$ FGAC@30GIMJ2E<M23A% !杨思春$#.$"%% &男&教授&博士&主要
研究方向为自然语言处理+粗糙集和概念格2
基于 "=W 的地理试题自动分类
!
朱刘影! 杨思春
$安徽工业大学 计算机科学与技术学院& 安徽 马鞍山 !&("(!%
摘)要! 针对地理课程自动解题&采用 7YR学习算法实现地理试题自动分类' 通过采用 9+%8b+技术提取地理
试题文本中的特征关键词& 并选取 e8D7YR中的 e=AEGK核函数进行训练&以构建用于地理试题分类的预测模型'
在所收集的地理试题集上的实验结果表明&在 !! 个试题类别上的单类分类精度达到 -"a以上&整体分类精度达
到了 -$a'
关键词! 自动解题! 支持向量机! 试题分类
中图分类号! 9:(.#))文献标志码! ;))文章编号! #""#%('./$!"#-%".%!$"$%"&
<4=!#"2(.'. >?2=@@A2#""#%('./2!"#-2".2"(&
;MJ45GJ=33OG@@=L=3GJ=4A 4LCE4CKGNI=3GONK4POE5@PG@E< 4A 7YR
BIM e=MF=AC! *GAC7=3IMA
"!"#$$%$&/$*K:,2)!"-2("2.82"#($%$16! >(#:-3(-42)5-,6$&82"# ( $%$16! 7++(5#+( >(#:-!&("(!! /#-(+#
!"#$%&'$$ ;=5=ACJ4GMJ45GJ=3NK4POE5@4OW=AC4LCE4CKGNIF34MK@E! JI=@NGNEKGNNO=E< JIE7YRGOC4K=JI5J4JIE3OG@@=L=3GJ=4A
4LCE4CKGNIFNK4POE5@2;A< =JM@E< JIE9+%8b+JE3IA4O4CFJ4EVJKG3JLEGJMKEH4K<@=A JIEJEVJ4LJIECE4CKGNIFJE@JNK4POE5@!
GA< JIEA @EOE3JE< JIEe=AEGKXEKAEOLMA3J=4A =A e8D7YRJ434A@JKM3JJIENKE<=3J=4A 54<EO29IEEVNEK=5EAJGOKE@MOJ@4A JIE34O%
OE3J=4A 4LCE4CKGNIFNK4POE5@@I4HJIGJJIE@=ACOE3OG@@=L=3GJ=4A G33MKG3F4A !! 3GJEC4K=E@=@GP4WE-"a ! GA< JIE4WEKGOO3OG@%
@=L=3GJ=4A G33MKG3F=@-$a2
()* +,%-#$ GMJ45GJ=3NK4POE5@4OW=AC% @MNN4KJWE3J4K5G3I=AE"7YR# % NK4POE53OG@@=L=3GJ=4A
)*引言
自动解题
(# `$)
是人工智能领域的经典问题& 由于自动解
题的题目大多为文字题!所以近年来也引起了自然语言处理领
域研究人员的极大兴趣!并开始成为自然语言处理领域新的研
究热 点& 关 于 自 动 解 题 的 研 究! 早 期 主 要 基 于 符 号 的 方
法
(#!!)
!近年来基于机器学习的方法
(( `$)
占据主流& 前者通过
模式匹配或转换规则来实现!后者通过训练语料自动构建学习
模型& 机器学习方法较好地解决了符号方法解题范围小'解题
能力弱的缺点%但由于受训练集规模和学习模型选择的影响较
大!其解题能力还有待于进一步的提升&
本文针对地理课程自动解题!通过对地理试题进行自动分
类
!进一步提升地理课程自动解题的性能& 试题分类对地理课
程自动解题有着非常重要的促进作用& 在解答一道地理试题
之前!如果能够明确该道题目是考核哪个类型的知识点!那么
后面解题时就会更有针对性!而且解题效率也会提高很多& 例
如!对于下面一道试题0!"## 年 ' 月 !' 日 !# 时 #" 分!台风
0米雷1 在山东沿海登陆!此时!我国卫星云图上!山东沿海呈
现出何种颜色" #;2绿色 D2白色 ,2蓝色 b2黄色1!如果能分
析出该道题目是属于卫星云图类型的试题!则根据卫星云图上
绿色表示陆地!蓝色表示海洋!黄色表示沙漠!白色表示云区!
台风过境时通常会出现狂风暴雨天气!因此在我国卫星云图上
山东沿海呈现白色!从而可以很快地确定该问题的答案为0 D2
白色1&
本文借鉴文本分类领域的做法!通过机器学习的方法实现
地理试题的自动分类
& 目前!文本分类领域性能较好的学习算
法主要有 7YR" @MNN4KJWE3J4K5G3I=AE#
(-)
'最大熵
(.)
等& 考虑
到 7YR算法在解决小样本'非线性及高维模式识别问题中所
表现出的许多特有优势!而且在分类性能方面也明显好于其他
几种学习算法!因此本文采用 7YR分类器对地理试题进行自
动分类&
+*基于 "=W的地理试题自动分类
+-+* 系统实现框架
本文采用 e8D7YR"O=PKGKFL4K@MNN4KJWE3J4K5G3I=AE#
(#")
分
类器对地理试题进行分类& 该分类器是台湾大学林智仁等人
开发设计的通用 7YR 软件包!可以快速有效地解决分类'回归
以及分布估计等问题
!并提供了线性'多项式'径向基和 7 形函
数四种常用的核函数
!可以有效地解决多类分类问题&
本文利用 7YR进行地理试题分类的总体实现流程如下$
G#选择用于地理试题分类的训练数据集和测试数据集&
训练集和测试集都已经标记类标签&
P# 训练集文本预处理& 主要进行分词'文本标记等操作&
3#选择试题分类使用的特征& 本实验使用 9+%8b+技术对
词特征进行提取
&
<#生成训练模型& 得到类别名称'特征向量中每个词元
素的特征编号及训练语料字典!选择核函数及 7YR类型!得到
最后的训练模型
&
E#测试集文本预处理& 主要包括分词'加载训练过程中
的特征向量&
L#使用 训 练 模 型& 根 据 特 征 向 量! 对 测 试 集 进 行 分 类
第 (/ 卷第 . 期
!"#- 年 . 月)
计 算 机 应 用 研 究
;NNO=3GJ=4A 6E@EGK3I 4L,45NMJEK@
Y4OZ(/ [4Z.
7EN2!"#-
评论0
最新资源