没有合适的资源?快使用搜索试试~ 我知道了~
全国大学生数据统计与分析竞赛21年A题本科生组(4).pdf
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 75 浏览量
2024-03-10
21:40:03
上传
评论
收藏 1.07MB PDF 举报
温馨提示
试读
24页
数学建模各大竞赛优秀论文合集、全国大学生数据赛、全国大学生数据统计与分析竞赛优秀论文、21年A题优秀论文
资源推荐
资源详情
资源评论
队伍编号
dsa2100675
题号
(A)
基于 NLP 和 AHP 层次分析法的论文综合评价模型
摘 要
近年来,教育厅和高校加强了对研究生学位论文的监督,从选题、创新性、科研
能力以及论文规范性等多方面对学位论文进行质量评价。学位论文是研究生专业素质
和科研能力的综合体现,是研究生教育质量衡量的重要指标,因此,改进论文评价体
系对于提高我国研究生的整体水平和培养高素质、创新型人才具有重要意义。
本文采用的模型和方法有:EXCEL 数据处理、ICC 组内相关系数、Kendall 协调系
数、TF-IDF 算法模型、AHP 层次分析法等。本文将建立一个科学的论文综合评价模
型,对不同学科门类的学术论文的四个维度进行分析与评估。其中,四个维度包括选
题与综述、创新性及论文价值、科研能力与基础知识以及论文规范性。涵盖的学科门
类包括工学、理学、艺术学、医学等多个领域。
根据问题 A 附件 1 提供的 1246 篇硕士学位论文的评审信息,本文将通过数据统
计与分析的相关知识,主要运用 EXCEL、python、SPSS 三个工具解决题目中的 5 个问
题,并得出对于论文评价与得分的统计与结论。第一,是 EXCEL 的使用部分。利用
EXCEL 表格中的阈值筛选与排序等函数的数据处理,筛选出问题论文;之后用 average
()函数求平均数,利用 var()函数求方差来确定差异性。第二,是 python 的使用部
分。使用 python 中 jieba 第三方中文自然语言处理库,用 TF-IDF 算法模型处理专家
评语中关键词及关键词的词频;之后使用 python 中的 snownlp 第三方中文语言处理库
对专家评语进行情感分析,并计算出情感因子。第三,是 SPSS 的使用部分。通过 ICC
组内相关系数和 Kendall 协调系数来检验三个评委各项评分之间的一致性关系;之后
根据关键词的词频,确定选题与综述、创新性及论文价值、科研能力与基础知识以及
论文规范性四个维度的相对比重,利用 AHP 层次分析法计算四个维度的权重,建立评
阅专家观点评价模型。最后,计算四个维度加权后的综合得分,提取出 08 门类学科的
优秀与淘汰论文,通过逻辑分析得出两种论文的典型特征,完成问题的解答。
值得特别说明的是,本文将文本分析后的结果采用了 AHP 层次分析法。此方法虽
然存在客观性较差的问题,然而在实践中,专家评语和各项打分本就不是一个完全客
观的结果。因此主观与客观相结合,定量与定性相结合来确定四个维度分数的权重,
可以在一定程度上反映出四个维度之间相对重要性的差异,是具有科学合理性的。
关键词:论文评价,TF-IDF 算法模型,文本情感分析,自然语言处理,一致性检验,
AHP 层次分析法,EXCEL 数据处理,jieba 库,snowNLP 库
目录
1.问题重述 .............................................................. 1
1.1 问题背景 ................................................................. 1
1.2 问题提出 ................................................................. 1
1.3 问题的补充说明 ........................................................... 1
2.模型假设与符号说明 .................................................... 2
2.1 模型假设 ................................................................. 2
2.2 符号说明 ................................................................. 2
3.模型的建立和求解 ...................................................... 3
3.1 问题分析 ................................................................. 3
3.2 模型建立 ................................................................. 3
3.2.1 差异性和一致性检验模型 ................................................ 3
3.2.2 TF-IDF 算法模型 ....................................................... 5
3.2.3 AHP 层次分析法模型 .................................................... 6
3.2.4 自然语言处理(NLP)模型 ............................................... 8
3.3 改进的 TF-IWF 算法模型 .................................................... 9
4.问题的解决 ............................................................ 9
4.1 问题一 ................................................................... 9
4.2 问题二 .................................................................. 10
4.3 问题三 .................................................................. 13
4.4 问题四 .................................................................. 17
4.5 问题五 .................................................................. 18
5.模型评价、改进与推广 ................................................. 18
5.1 模型评价 ................................................................ 19
5.2 模型的改进 .............................................................. 19
5.3 模型的推广 .............................................................. 19
参考资料 ............................................................... 20
附录 ................................................................... 21
第 1 页 共 22 页
1.问题重述
1.1 问题背景
国家的经济文化发展离不开人才,硕士和博士教育是培养高素质、创新型人才的
重要途径。硕士研究生和博士研究生阶段的最终成果都是由学位论文体现,它是研究
生们在高校的科研活动和科研水平的重要体现,也对高校研究生的素质评价具有重要
意义。同时,从研究生个人层面来看,无论今后继续学术研究,还是直接步入社会进
入工作岗位,研究生论文的撰写和总结都可以为未来打下良好的基础。然而,随着我
国研究生招生规模的扩大,越来越多的学生攻读硕士研究生和博士研究生的学位,不
可避免的带来了论文质量下降等问题,令人堪忧。2019 年,翟天临学位论文涉嫌学术
不端事件后,硕士学位论文的评价体系更是引起了国内外众多学者们的广泛关注。
目前,在我国绝大部分高校中,研究生论文质量都是判断一名研究生能否顺利毕
业的重要因素。其中,论文质量包括专家打分评审和研究生现场答辩两部分。在专家
打分评审部分,专家们对论文的创新、选题、学术水平和写作水平进行“同意答
辩”、“修改答辩”、“不同意答辩”的等级评分,评价结果受专家们的主观因素的
影响较大。在研究生现场答辩部分,专家根据论文评分和答辩结果给出综合评分“优
秀”、“良好”、“及格”和“不及格”。这种定量的方法虽然通过了确定的一套标
准,对论文的各个方面进行评价,最终计算总分。但是由于各专家的评价标准和宽大
程度不同,最终的等级结果缺乏一定的客观性和科学性。
因此,如何避免评委的主观因素对学术论文评价的影响,如何有针对性的改进硕
士学位论文的评审工作,从而更好地反映研究生教育的总体情况,进而提高硕士教育
的质量,是本文正在讨论的问题。本文将会运用数据统计与分析方法,围绕如何建立
一套更科学客观的研究生学位论文评价体系,展开具体的分析,并针对题目中提出的
五个问题,给出完整的回答。
1.2 问题提出
2019 年和 2020 年,中国北方某省教育厅按照《国务院学位委员会、教育部关于印
发博士、硕士学位论文检查办法的通知》的要求,完成了每年 1.5 万余篇硕士学位论
文的例行抽样检查,并获得了一部分专家评语与四个维度的评分结果,四个维度包括
选题与综述、创新性及论文价值、科研能力与基础知识以及论文规范性。教育厅用三
位评委中的最低分确定研究生学位论文的淘汰比例,采用三位评委的平均分来反映学
位论文的总体水平。为了更好的完善研究生学位论文的评价规则,帮助教育厅重新审
视学位论文的评价,题目根据附件中给出的部分抽检论文的评审信息,提出了五个具
体的数据统计与分析的问题。
1.3 问题的补充说明
表 1:学科门类编码释义表
01
02
03
04
05
07
哲学
经济学
法学
教育学
文学
理学
08
09
10
12
13
工学
农学
医学
管理学
艺术学
第 2 页 共 22 页
表 2:评价指标表
2.模型假设与符号说明
2.1 模型假设
1. 假设 3 位评阅专家给出的四个维度评分都是客观合理的。
2. 假设使用 TF-IDF 算法提取的专家评价关键词是准确的。
3. 假设 AHP 层次分析法的判断矩阵是客观合理的。
4. 假设文中提到的四个维度可以近似体现研究生论文的水平。
2.2 符号说明
表 3:符号说明表
序号
符号
符号表示含义
1
样本方差
2
样本均值
3
组内相关系数
4
Kendall
协调系数
5
词语出现的频率
6
逆向文件频率
7
语料库中的文件总数
8
U
评价指标集
9
指标对指标的重要性
10
为平均随机一致性指标
评价指标
评价要素
选题与综
述
(25 分)
1.研究的理论意义、实用;
2.对本学科及相关学科领域国内外发展状况和学术动态的了解程
度。
创新性及
论文价值
(25 分)
1.论文提出的新见解、新方法所具有的价值;
2.论文成果对科技进步、经济建设、国家安全等方面产生的影响
或作用。
科研能力
与基础知
识
(25 分)
1.论文体现的理论基础的扎实程度;
2.本学科及相关学科领域专门知识的系统性;
3.分析问题、解决问题的能力;
4.研究方法的科学性,是否采用先进技术、设备、信息等进行论文
研究工作。
论文规范
性
(25 分)
1.引文的规范性,学风的严谨性;
2.论文语言表达的准确性、逻辑的严密性、书写格式及图表的规
范性。
第 3 页 共 22 页
3.模型的建立和求解
3.1 问题分析
根据附件 1 提供的 1246 篇硕士学位论文的评审信息,本文将回答题目要求的五
个问题并填写附件 2 。
问题一:基于“末位后 5%淘汰制”,即提取 3 位评阅专家给出的总分最低分进
行学科门类内排名,用末位后 5% 筛选出问题论文。本文使用 EXCEL 进行简单的数据
处理和阈值筛选,并填写附录 2 。
问题二:计算每篇论文的各分项平均分和总分平均分。按照学科门类,分别统计
分析 3 位评阅专家给出的 3 个总分以及 1 个总分平均分之间的一致性和差异性,并
分析对比各学科门类学位论文的水平。本文首先使用 EXCEL 对各个学科门类分别进行
平均值的计算,并填写附录 2 ;其次通过方差分析比较 3 位专家给出的分数的差异
性;然后通过 ICC 组内相关系数和 Kendall 协调系数检验总分之间的一致性关系;最
后
问题三:按照学科门类统计分析论文评阅评语,采用文本分析方法,建立评阅专
家观点评价模型,并论证文本分析结果与其各分项得分间是否存在一致性。本文首先
根据 TF-IDF 算法模型,使用 python jieba 库提取评阅专家观点中的关键词;然后通
过关键词的比例,确定选题与综述、创新性及论文价值、科研能力与基础知识以及论
文规范性的相对比重,利用 AHP 层次分析法计算四个维度的权重,建立评阅专家观点
评价模型;最后通过自然语言处理的情感分析,比较专家评语和打分情况的一致性关
系。
问题四:应用问题 2 和问题 3 得到的结论对附件 1 中的每篇论文进行综合评
价,给出综合得分。本文利用 AHP 层次分析法得出的四个维度权重,使用 EXCEL 计算
四个维度加权后的综合得分,并填写附录 2 。
问题五:以学科门类工学(08)为例,对比问题论文(被淘汰的论文)与优秀论
文(综合得分排名前 10%)的典型特征。
其中,附件 1 中的数据涵盖 11 个学科门类。表中的 Tag 指的是学科门类编
码,表中 bm 指的是论文编号,每个编号对应 1 篇硕士学位论文,每篇论文都有 3
位评阅专家评价信息。表中的 Xk1 指的是第 k 位评审专家对论文选题与综述的评
分;Xk2 指的是第 k 位评审专家对创新性及论文价值的评分;Xk3 指的是第 k 位评审
专家对科研能力与基础知识的评分;Xk4 指的是第 k 位评审专家对论文规范性的评
分;Xk 指的是第 k 位评审专家对论文的总体评价得分; Rk 指的是第 k 位评审专家
对论文的评语,k=1, 2, 3。
3.2 模型建立
3.2.1 差异性和一致性检验模型
3.2.1.1 差异性检验模型
差异性检验是统计学中的常用的一种统计假设检验,用于检测在科学实验中实验
组和对照组之间是否存在差异,以及它们之间的差异是否显著。其中,最为典型的差
异性检验模型有卡方检验、t 检验和方差分析。
卡方检验是通过样本的实际观测值与理论推断值之间的偏离程度,检测差异性
的。如果卡方值越大,二者偏差偏离程度越大,差异性越大;反之,二者偏离程度越
小,差异性越小;若两者完全相等时,卡方值为 0,表明理论值完全符合。t 检验,主
剩余23页未读,继续阅读
资源评论
阿拉伯梳子
- 粉丝: 1230
- 资源: 5443
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功