基于LSI和卷积神经网络实现智能阅读模型.rar资源-CSDN文库

共62个文件

png：18个

txt：16个

ipynb：13个

python

智能阅读

需积分: 5 192 浏览量 2023-01-17 13:57:52 上传评论收藏 27.97MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

基于LSI和卷积神经网络实现智能阅读模型.rar （62个子文件）

基于LSI和卷积神经网络实现智能阅读模型

ai_ebook

asserts

biao1.png 38KB

word2vec

step.ipynb 6KB

word2vec.ipynb 7KB

LICENSE 1KB

docs

FastText.png 16KB

CNN.png 37KB

report

答辩一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf 3.12MB

一种基于潜在语义索引和卷积神经网络的智能阅读模型.pdf 1.74MB

答辩-一种基于潜在语义索引和卷积神经网络的智能阅读模型.pptx 3.39MB

一种基于潜在语义索引和卷积神经网络的智能阅读模型.docx 780KB

通知.pdf 314KB

Attention.png 22KB

Bi-LSTM.png 18KB

test

data

data.ipynb 4KB

newdata.ipynb 19KB

models.py 10KB

evaluate.ipynb 107KB

predict.ipynb 9KB

img

Score3.png 11KB

Score4.png 51KB

map.jpg 7KB

Score1.png 8KB

Score2.png 10KB

mrr.jpg 7KB

predict

BiLSTM.txt 7.89MB

Average.txt 4.14MB

CNN1.txt 7.95MB

FastText.txt 7.89MB

Vote.txt 4.14MB

CNN2.txt 7.9MB

Attention.txt 7.91MB

Weight.txt 4.14MB

main

3_CNN2.ipynb 376KB

data

data.ipynb 74KB

models.py 10KB

evaluate.ipynb 110KB

img

CNN1.png 266KB

Score3.png 11KB

FastText.png 83KB

BiLSTM.png 120KB

Score4.png 54KB

map.jpg 7KB

Score1.png 8KB

Score2.png 10KB

Attention.png 90KB

mrr.jpg 7KB

CNN2.png 266KB

2_CNN1.ipynb 376KB

5_Attention.ipynb 132KB

1_FastText.ipynb 122KB

predict

BiLSTM.txt 31KB

Average.txt 17KB

CNN1.txt 31KB

FastText.txt 31KB

Vote.txt 17KB

CNN2.txt 31KB

Attention.txt 31KB

Weight.txt 17KB

model

.gitignore 56B

log

.gitignore 56B

4_BiLSTM.ipynb 172KB

README.md 45KB

# 基于潜在语义索引和卷积神经网络的智能阅读模型 ### 摘要：人们在日常生活中也需要阅读各式各样的电子文档，有时候他们希望不用通读文本就能获得自己想要的信息。而近年来，自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展，因此，本文通过比较不同的方法，构建基于自然语言处理技术的智能阅读模型，以解决此类问题。整个解题过程分为以下几个步骤： - 第一步对智能阅读模型中的阅读材料以及问答训练集进行数据预处理，对训练集中数据的特征有一个清晰的了解，并对训练集进行去噪处理，除去空回答、重复回答等无效回答，防止干扰训练。 - 第二步选取经典文本“射雕英雄传”进行实验，通过使用词频-逆文件频率(TF-IDF)模型以及基于奇异值矩阵分解(SVD)的潜在语义索引模型(LSI)进行关键词匹配，得出较佳答案。 - 第三步根据经典的文本分类卷积神经网络模型，我们设计了一个更深更复杂的卷积神经网络模型。通过词嵌入后，分别对问题和关键词匹配结果中的回答进行两次卷积核大小为 3、4、5 的卷积操作，经过最大池化层后，将池化的向量连接起来。并通过使用 ReLU 激活函数，防止反向传播过程中的梯度问题（梯度消失和梯度爆炸）以及使用 Batch Normalization 批规范化，加速收敛，最终选取置信度前 15 的答案作为候选答案。随后计算得到准确率为 77.0492%， F1-score 为 0.5767，以此来评价模型的优劣，并设计测试用例查看模型运行结果。 - 实验最后分析并评估了该智能阅读系统的泛化能力，并简要介绍了未来的计划：通过改进损失函数，构建基于 Web 开放域的问答系统以及研究基于众包的智能阅读数据服务来完善该智能阅读模型。 **关键词**： TF-IDF,LSI,智能阅读模型，卷积神经网络，自然语言处理 # 一、引言随着互联网的高速发展以及智能设备的普及，数字阅读以方便、快捷的优势,越来越被大众所接受和认可。据中国数字阅读大会上的调研数据显示，2017 年全国数字阅读用户近 4 亿，人均电子书阅读量为 10.1 本，而纸质书阅读量仅 7.5 本。除电子书籍外，人们在日常生活中也需要阅读各式各样的电子文档，如说明书、教程、文集以及词典等。然而，在传统的数字阅读中存在用户无法精准定位关键信息的问题，即无法满足用户仅需查找文档中某些片段以获取关键信息的需求。例如，当用户需要查找法律文献中的一些段落来解决法律疑惑时，只需要理解关键部分而无需精读整个法律文献；同样，对于小说阅读，如果用户仅需了解其中的特殊细节，也不需要对整部小说进行精细化阅读。智能交互在电子书阅读中的应用为上述问题提供了解决方案。近年来，自然语言处理(NLP)作为人工智能的一个重要领域得到了飞速发展，构建基于自然语言处理技术的智能阅读模型，通过端到端的处理技术辅助快速阅读，直接对用户的问题进行处理，无需基于关键词搜索即可直接定位文档中的相关段落，并将答案直接反馈至用户。基于对智能阅读系统的理解和认识，本文将立足于以上背景和问题，构建基于潜在语义索引(LSI)及卷积神经网络(CNN)的智能阅读模型，完成基于限定文本的阅读问答智能交互操作。在完成对题目所给问题集的数据分析以及预处理工作后，该模型与其他主流方案相比，在 F1-Score、准确率以及泛化能力上都表现出优越的效果。本文包括引言、系统模型、实验方案、实验结果、总结与展望五个部分。 # 二、模型框架为了使智能阅读模型能正确理解用户的问题，并跳转到答案所在文本所在行，我们提出了一种基于潜在语义索引(LSI)及卷积神经网络(CNN)的智能阅读模型，该模型主要包括三个部分：数据分析与预处理、关键词匹配以及精准匹配。模型架构图如图 1 所示。 ![](https://www.writebug.com/myres/static/uploads/2021/12/31/c431cf88717ab607bdf28291c51781fb.writebug) 图 1 智能阅读模型框架 **第一步：数据分析与预处理。**我们对问题给出的数据集进行统计分析，提出该数据集进行处理时的关键挑战，并给出相应的预处理步骤； **第二步：关键词匹配。**首先对用户提出的问题进 1 行分词，并将需要在其中寻找答案的文本构建成问答数据库。进而使用词频-逆向文件词频(TF-IDF)计算出问题以及段落的词频矩阵，再利用基于奇异值分解(SVD)的 LSI 方法将其转化为奇异矩阵，计算相似度，将相似度较大的若干个可能答案段落作为问题的粗匹配结果； **第三步：精准匹配。**我们在经典的 TextCNN 模型上进行优化，提出一个新的 CNN 模型在粗匹配结果上进行二次优化达到精确匹配的目的。在这个过程中首先进行词嵌入，然后分别对问题和粗匹配结果中的回答进行两次卷积核大小为 3、4、5 的卷积操作，经过最大池化层后，将池化的向量连接起来。并通过使用 ReLU 激活函数，防止反向传播过程中的梯度问题（梯度消失和梯度爆炸）以及使用 Batch Normalization 批规范化，加速收敛，最终输出排序后的较佳结果。 # 三、方案介绍 ## 3.1 数据分析与预处理 ### 3.1.1 数据分析高质量的数据集是模型匹配和优化的基础，对整个数据集进行分析处理可以促进对数据集的全面认知，从而更好地对数据进行特征工程编码表示，进一步提高数据集的质量。根据分析结果，更容易选择预处理阶段的相关参数，减少重复摸索的概率。根据问题所给的数据集，我们完成了数据集的分析工作，如图 2 及表 1 所示。表 1. 问答训练集统计表 ![biao1](asserts/biao1.png) 表 1 给出了问答数据集中的统计结果，由表中可知问答训练集中的问题数量为 30000 个，最长的问题有 243 个字符，最短的问题只有 4 个字符，平均长度为 13 个音符；而分词后最长的问题有 148 个词，最短的问题只有 8 个词，句子平均长度为 8 个词。同理，问答训练集中答案的数量为 477019 个，其中正确答案为 127328 个，错误答案有 349691 个，正确答案与错误答案的比值约为 1：3，最长的回答有 6425 个字符，最短的回答是 0（空回答），回答的平均长度 35 个词；进行分词之后，最长的回答有 3545 个词，最短的回答依然只是空回答，答案的平均长度为 60 个词。 ![](https://www.writebug.com/myres/static/uploads/2021/12/31/801b401a8bd83671f7717f4e7c44ee67.writebug) 图 2. 问答训练集统计示意图从图 2 中可以看出，分词前每个问题的长度大部分集中在 10~20 个字符以内，每个答案的长度大部分在 200 个字符以内。而在分词后，问题的长度集中在 15 个词以内，答案的长度大部分在 150 个词以内。根据上述的统计分析，数据预处理的相关参数选择可以从中参考。由于模型的输入长度是固定的，因为需要选择一个输入序列长度作为参数，参数 200、400 等都是合理选择。实际上，我们进行了相关实验，并得出结果：当长度为 200 时，平均训练耗时 280 秒；当扩大长度到 400 时，平均训练耗时 400 秒。然而这两种选择的最终准确率基本相同，意味着扩大的那一部分并没有给模型带来提升的效果。我们最终也在综合了准确率和训练效率后，决定选择 200 作为模型输入序列长度。 ##

评论收藏

内容反馈