# 基于潜在语义索引和卷积神经网络的智能阅读模型
### 摘要:
人们在日常生活中也需要阅读各式各样的电子文档,有时候他们希望不用通读文本就能获得自己想要的信息。而近年来,自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展,因此,本文通过比较不同的方法,构建基于自然语言处理技术的智能阅读模型,以解决此类问题。
整个解题过程分为以下几个步骤:
- 第一步对智能阅读模型中的阅读材料以及问答训练集进行数据预处理,对训练集中数据的特征有一个清晰的了解,并对训练集进行去噪处理,除去空回答、重复回答等无效回答,防止干扰训练。
- 第二步选取经典文本“射雕英雄传”进行实验,通过使用词频-逆文件频率(TF-IDF)模型以及基于奇异值矩阵分解(SVD)的潜在语义索引模型(LSI)进行关键词匹配,得出较佳答案。
- 第三步根据经典的文本分类卷积神经网络模型,我们设计了一个更深更复杂的卷积神经网络模型。通过词嵌入后,分别对问题和关键词匹配结果中的回答进行两次卷积核大小为 3、4、5 的卷积操作,经过最大池化层后,将池化的向量连接起来。并通过使用 ReLU 激活函数,防止反向传播过程中的梯度问题(梯度消失和梯度爆炸)以及使用 Batch Normalization 批规范化,加速收敛,最终选取置信度前 15 的答案作为候选答案。随后计算得到准确率为 77.0492%, F1-score 为 0.5767,以此来评价模型的优劣,并设计测试用例查看模型运行结果。
- 实验最后分析并评估了该智能阅读系统的泛化能力,并简要介绍了未来的计划:通过改进损失函数,构建基于 Web 开放域的问答系统以及研究基于众包的智能阅读数据服务来完善该智能阅读模型。
**关键词**: TF-IDF,LSI,智能阅读模型,卷积神经网络,自然语言处理
# 一、引言
随着互联网的高速发展以及智能设备的普及,数字阅读以方便、快捷的优势,越来越被大众所接受和认可。据中国数字阅读大会上的调研数据显示,2017 年全国数字阅读用户近 4 亿,人均电子书阅读量为 10.1 本,而纸质书阅读量仅 7.5 本。除电子书籍外,人们在日常生活中也需要阅读各式各样的电子文档,如说明书、教程、文集以及词典等。然而,在传统的数字阅读中存在用户无法精准定位关键信息的问题,即无法满足用户仅需查找文档中某些片段以获取关键信息的需求。例如,当用户需要查找法律文献中的一些段落来解决法律疑惑时,只需要理解关键部分而无需精读整个法律文献;同样,对于小说阅读,如果用户仅需了解其中的特殊细节,也不需要对整部小说进行精细化阅读。
智能交互在电子书阅读中的应用为上述问题提供了解决方案。近年来,自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展,构建基于自然语言处理技术的智能阅读模型,通过端到端的处理技术辅助快速阅读,直接对用户的问题进行处理,无需基于关键词搜索即可直接定位文档中的相关段落,并将答案直接反馈至用户。
基于对智能阅读系统的理解和认识,本文将立足于以上背景和问题,构建基于潜在语义索引(LSI)及卷积神经网络(CNN)的智能阅读模型,完成基于限定文本的阅读问答智能交互操作。在完成对题目所给问题集的数据分析以及预处理工作后,该模型与其他主流方案相比,在 F1-Score、准确率以及泛化能力上都表现出优越的效果。本文包括引言、系统模型、实验方案、实验结果、总结与展望五个部分。
# 二、模型框架
为了使智能阅读模型能正确理解用户的问题,并跳转到答案所在文本所在行,我们提出了一种基于潜在语义索引(LSI)及卷积神经网络(CNN)的智能阅读模型,该模型主要包括三个部分:数据分析与预处理、关键词匹配以及精准匹配。模型架构图如图 1 所示。
![](https://www.writebug.com/myres/static/uploads/2021/12/31/c431cf88717ab607bdf28291c51781fb.writebug)
图 1 智能阅读模型框架
**第一步:数据分析与预处理。**我们对问题给出的数据集进行统计分析,提出该数据集进行处理时的关键挑战,并给出相应的预处理步骤;
**第二步:关键词匹配。**首先对用户提出的问题进 1 行分词,并将需要在其中寻找答案的文本构建成问答数据库。进而使用词频-逆向文件词频(TF-IDF)计算出问题以及段落的词频矩阵,再利用基于奇异值分解(SVD)的 LSI 方法将其转化为奇异矩阵,计算相似度,将相似度较大的若干个可能答案段落作为问题的粗匹配结果;
**第三步:精准匹配。**我们在经典的 TextCNN 模型上进行优化,提出一个新的 CNN 模型在粗匹配结果上进行二次优化达到精确匹配的目的。在这个过程中首先进行词嵌入,然后分别对问题和粗匹配结果中的回答进行两次卷积核大小为 3、4、5 的卷积操作,经过最大池化层后,将池化的向量连接起来。并通过使用 ReLU 激活函数,防止反向传播过程中的梯度问题(梯度消失和梯度爆炸)以及使用 Batch Normalization 批规范化,加速收敛,最终输出排序后的较佳结果。
# 三、方案介绍
## 3.1 数据分析与预处理
### 3.1.1 数据分析
高质量的数据集是模型匹配和优化的基础,对整个数据集进行分析处理可以促进对数据集的全面认知,从而更好地对数据进行特征工程编码表示,进一步提高数据集的质量。根据分析结果,更容易选择预处理阶段的相关参数,减少重复摸索的概率。根据问题所给的数据集,我们完成了数据集的分析工作,如图 2 及表 1 所示。
表 1. 问答训练集统计表
![biao1](asserts/biao1.png)
表 1 给出了问答数据集中的统计结果,由表中可知问答训练集中的问题数量为 30000 个,最长的问题有 243 个字符,最短的问题只有 4 个字符,平均长度为 13 个音符;而分词后最长的问题有 148 个词,最短的问题只有 8 个词,句子平均长度为 8 个词。同理,问答训练集中答案的数量为 477019 个,其中正确答案为 127328 个,错误答案有 349691 个,正确答案与错误答案的比值约为 1:3,最长的回答有 6425 个字符,最短的回答是 0(空回答),回答的平均长度 35 个词;进行分词之后,最长的回答有 3545 个词,最短的回答依然只是空回答,答案的平均长度为 60 个词。
![](https://www.writebug.com/myres/static/uploads/2021/12/31/801b401a8bd83671f7717f4e7c44ee67.writebug)
图 2. 问答训练集统计示意图
从图 2 中可以看出,分词前每个问题的长度大部分集中在 10~20 个字符以内,每个答案的长度大部分在 200 个字符以内。而在分词后,问题的长度集中在 15 个词以内,答案的长度大部分在 150 个词以内。
根据上述的统计分析,数据预处理的相关参数选择可以从中参考。由于模型的输入长度是固定的,因为需要选择一个输入序列长度作为参数,参数 200、400 等都是合理选择。实际上,我们进行了相关实验,并得出结果:当长度为 200 时,平均训练耗时 280 秒;当扩大长度到 400 时,平均训练耗时 400 秒。然而这两种选择的最终准确率基本相同,意味着扩大的那一部分并没有给模型带来提升的效果。我们最终也在综合了准确率和训练效率后,决定选择 200 作为模型输入序列长度。
##
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于LSI和卷积神经网络实现智能阅读模型.rar (62个子文件)
基于LSI和卷积神经网络实现智能阅读模型
ai_ebook
asserts
biao1.png 38KB
word2vec
step.ipynb 6KB
word2vec.ipynb 7KB
LICENSE 1KB
docs
FastText.png 16KB
CNN.png 37KB
report
答辩一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf 3.12MB
一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf 1.74MB
答辩-一种基于潜在语义索引和卷积神经网络的智能阅读模型.pptx 3.39MB
一种基于潜在语义索引和卷积神经网络的智能阅读模型.docx 780KB
通知.pdf 314KB
Attention.png 22KB
Bi-LSTM.png 18KB
test
data
data.ipynb 4KB
newdata.ipynb 19KB
models.py 10KB
evaluate.ipynb 107KB
predict.ipynb 9KB
img
Score3.png 11KB
Score4.png 51KB
map.jpg 7KB
Score1.png 8KB
Score2.png 10KB
mrr.jpg 7KB
predict
BiLSTM.txt 7.89MB
Average.txt 4.14MB
CNN1.txt 7.95MB
FastText.txt 7.89MB
Vote.txt 4.14MB
CNN2.txt 7.9MB
Attention.txt 7.91MB
Weight.txt 4.14MB
main
3_CNN2.ipynb 376KB
data
data.ipynb 74KB
models.py 10KB
evaluate.ipynb 110KB
img
CNN1.png 266KB
Score3.png 11KB
FastText.png 83KB
BiLSTM.png 120KB
Score4.png 54KB
map.jpg 7KB
Score1.png 8KB
Score2.png 10KB
Attention.png 90KB
mrr.jpg 7KB
CNN2.png 266KB
2_CNN1.ipynb 376KB
5_Attention.ipynb 132KB
1_FastText.ipynb 122KB
predict
BiLSTM.txt 31KB
Average.txt 17KB
CNN1.txt 31KB
FastText.txt 31KB
Vote.txt 17KB
CNN2.txt 31KB
Attention.txt 31KB
Weight.txt 17KB
model
.gitignore 56B
log
.gitignore 56B
4_BiLSTM.ipynb 172KB
README.md 45KB
共 62 条
- 1
资源评论
计算机毕设论文
- 粉丝: 1w+
- 资源: 399
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功