没有合适的资源?快使用搜索试试~ 我知道了~
基于深度学习的命名实体识别系统的设计与实现_1143710316_乐远1
需积分: 0 3 下载量 138 浏览量
2022-08-08
20:04:00
上传
评论 1
收藏 9.92MB DOCX 举报
温馨提示
试读
67页
摘要互联网+时代的到来使得互联网已经成为各个领域的基础性设施,尤其是金融领域。为了使得金融领域的信息达到“万物互联”,我们尝试去建立一个金融知识图谱,而这其中一
资源详情
资源评论
资源推荐
哈尔滨工业大学本科毕业设计(论文)
- I -
摘 要
互联网+时代的到来使得互联网已经成为各个领域的基础性设施,尤其是
金融领域。为了使得金融领域的信息达到“万物互联”,我们尝试去建立一个
金融知识图谱,而这其中一个很重要的基础性工作就是设计一个命名实体识别
系统,即从年报、公司报告、招股说明书、新闻等文本中提取出命名实体。我
们使用了端到端的双向 LSTM 加 CRF 的深度学习方法,在 MSRA 数据集并加
上人工标注的特定领域的数据上达到了 90.75 的 F 值,并且达到了很高的识别
速度,12 秒就可以识别 1000 个句子。而且我们没有去设置复杂的模板,更没
有人工去提取各种复杂的特征,整个模型完全是端到端的,模型的泛化能力很
强!为了使得该识别算法易于使用,我们还设计了一套详细完整的系统并配上
QT 的用户界面,简化用户的操作,给金融知识图谱的构建提供了强有力的基
础性工具!
关键词: 命名实体识别;知识图谱;系统设计;深度学习
哈尔滨工业大学本科毕业设计(论文)
- II -
Abstract
With the development of the Internet+ era, the Internet has become a basic
infrastructure in all areas, especially in the financial sector. In order to make
information in the financial sector reach "all things interconnected," we try to
establish a financial knowledge graph. One of the most important basic tasks is to
design a named entity recognition system from the annual report, company report,
prospectus, and news. Named entities are extracted from such texts. We used an end-
to-end bi-directional LSTM plus CRF deep learning method, achieved an F value of
90.75 on the MSRA data set plus manually labeled specific field data, and achieved
high recognition speed, 12 seconds Identify 1000 sentences. Moreover, we did not
set up complex templates, nor did we manually extract all kinds of complex features.
The entire model was completely end-to-end, and the model's generalization ability
was very strong! In order to make the identification algorithm easy to use, we also
designed a detailed and complete system and matched the QT user interface to
simplify the user's operation and provide a powerful foundational tool for the
construction of financial knowledge graph.
Keywords: name entity recognition, knowledge graph, system design, deep learning
哈尔滨工业大学本科毕业设计(论文)
- III -
目 录
摘 要 ...........................................................................................................................I
Abstract ........................................................................................................................II
第 1 章 绪论 ................................................................................................................1
1.1 课题背景及意义 ...............................................................................................1
1.2 国内外研究现状 ...............................................................................................3
1.3 本文主要工作内容 ...........................................................................................6
第 2 章 需求分析 ........................................................................................................7
2.1 系统功能需求 ...................................................................................................7
2.2 系统非功能需求 ...............................................................................................9
2.3 本章小结 ...........................................................................................................9
第 3 章 系统设计 ......................................................................................................10
3.1 系统概要设计 .................................................................................................10
3.1.1 系统功能设计 ..........................................................................................10
3.1.2 系统体系结构设计 ..................................................................................12
3.1.3 系统架构设计 ..........................................................................................12
3.1.4 系统存储数据结构设计 ..........................................................................13
3.2 系统详细设计 .................................................................................................14
3.2.1 文本输入详细设计 ..................................................................................14
3.2.2 分句分词详细设计 ..................................................................................14
3.2.3 人工标注语料库详细设计 ......................................................................15
3.2.4 词向量模块详细设计 ..............................................................................15
3.2.5 实体识别算法详细设计 ..........................................................................16
3.2.6 模型调参调优详细设计 ..........................................................................21
3.2.7 实体识别详细设计 ..................................................................................22
3.2.8 后处理详细设计 ......................................................................................24
3.3 本章小结 .........................................................................................................24
第 4 章 系统实现 ......................................................................................................25
4.1 开发环境与工具 .............................................................................................25
4.1.1 开发语言 ..................................................................................................25
4.1.2 开发工具 ..................................................................................................25
哈尔滨工业大学本科毕业设计(论文)
- IV -
4.1.3 开发环境 ..................................................................................................25
4.2 命名实体识别系统实现 .................................................................................26
4.2.1 文本输入实现 ..........................................................................................26
4.2.2 分句分词实现 ..........................................................................................27
4.2.3 人工标注语料库实现 ..............................................................................28
4.2.4 词向量模块实现 ......................................................................................29
4.2.5 实体识别算法实现 ..................................................................................30
4.2.6 模型调参与调优实现 ..............................................................................32
4.2.7 实体识别实现 ..........................................................................................35
4.2.8 后处理实现 ..............................................................................................38
4.3 本章小结 .........................................................................................................39
第 5 章 系统测试与性能分析 ..................................................................................41
5.1 系统测试 .........................................................................................................41
5.2 性能分析 .........................................................................................................42
5.2.1 测试样例分析 ..........................................................................................42
5.2.2 与其他算法模型的比较 ..........................................................................44
5.2.3 实体识别速度分析 ..................................................................................44
5.3 本章小结 .........................................................................................................45
结 论 ........................................................................................................................46
参考文献 ....................................................................................................................47
哈尔滨工业大学本科毕业设计(论文)原创性声明 ............................................50
致 谢 ........................................................................................................................51
附录 1 外文文献译文 ...............................................................................................52
附录 2 外文文献原文 ...............................................................................................58
哈尔滨工业大学本科毕业设计(论文)
- 1 -
第1章 绪论
1.1 课题背景及意义
本项目主要来源于我在在深圳证券交易所实习阶段所参与的《证券金融知
识图谱》项目以及许保勋许博士的指导。
互联网+时代的到来标志着互联网不再是一个工具而是一个基础性的设
施,在互联网+以及大数据时代,世间万物通过互联网进行互联,互联网的基
础性地位越来越重要,已经渗透到包括金融、教育、科技、工业生产等各个领
域,尤其是金融领域。从本质上而言,金融就是用不同的数字与信息去表达金
融资源的时间与空间特性,通过对信息进行处理与利用,完成不同金融资源的
时间及空间的匹配,以达到资源价值最大化的目的。
深圳证券交易所是一个监管金融与股票交易的一个非商业机构,每天会有
大量的交易以及重要的政策、股票行情信息,因此急需要一个能够充分利用复
杂的金融信息的一个平台,经过多年探索和广泛调研最终决定模仿上交所构建
一个证券知识图谱,以充分利用各种金融信息。
2012 年,谷歌将知识图谱
[1]
成功应用到搜索引擎,从此知识图谱在学术界
和工业界收到了广泛关注。知识图谱的本质是一个语义网络,由概念、实体以
及实体之间的关系构成。知识图谱的构建主要是将零散的结构化、半结构化和
无结构化数据通过信息抽取、信息融合等技术处理成集中的结构化数据,并通
过图的方式表达实体与实体之间的复杂关系,方便上层应用系统从整个知识系
统的角度去分析复杂的逻辑推力问题。构建金融证券领域的知识图谱需要从互
联网平台的股吧、新闻、论坛、财经网站、微信、微博、公告、研报、招股相
关文档等等结构化或非结构化的数据中进行信息抽取、信息融合,达到人、公
司、产品、行业的“万物互联”(如图 1-1),从而提高行业信息的利用价
值。尤其是在深交所这个监管市场的地方,通过构建证券知识图谱可以将所有
重点相关联的企业、公司、股票以及个人进行影响价值分析,对上述信息可能
产生的正面或者负面影响、风险进行分析,从而快速做出投资决策甚至实现降
低投资交易风险。因此研究金融领域证券知识图谱具有重大意义。
剩余66页未读,继续阅读
苏采
- 粉丝: 13
- 资源: 302
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0