![](https://csdnimg.cn/release/download_crawler_static/87210238/bg2.jpg)
了人名、地名、机构名的识别以外, 还包含属于专业领域的金融实体, 如金融
公司名、公司名简称、金融产品名称、金融项目名称、金融专业名词等. 金融
领域中文 NER 的新挑战在于 3 点. 其一是组织机构名的识别: 金融文本中的
组织机构名长度变化大, 并且机构名实体中经常含有人名、地名和未登录词,
构成嵌套实体问题; 对于同一个机构的表达方式多样, 从全称中抽取个别字组
成新的不同简称, 甚至有一些网络昵称, 如腾讯的昵称为“鹅厂”; 金融领域的组
织机构名的命名规则变化多样, 没有统一的格式进行约束. 其二是金融术语的
识别: 金融术语是一种复杂类型实体并且存在较多的新实体, 常用的分词工具
难以较好地切分专业名词的边界; 金融文本中经常出现中文、英文和数字混合
组成的实体名; 术语的口语化表述方式造成歧义识别; 领域性含义的实体, 如
轨道、杠杆、板块等. 其三是缺乏实体丰富且有质量的金融领域数据集供实验
研究. 随着互联网日新月异的变化, 金融实体的数量也在不断大量增长, 并且
金融实体在文本中内容分散、数据稀疏、无结构化等特点, 使得通用领域的
NER 模型直接应用在金融领域中文 NER 数据集上的效果不显著, 需要根据金
融文本特征探索新方法.
近年来, 有不少文献对 NER 的国内外研究方法进行了梳理. Li 等
[4]
详细整
理了针对英文语料的 NER 方法, 尤其是基于深度学习的模型; 李嘉欣等
[5]
详细
整理了针对中文语料的 NER 方法; Nadeau 等
[6]
主要介绍了统计学习方法在
NERC 中的应用. 在金融领域中, 中文命名实体识别作为金融文本的其他自然
语言处理任务的基石, 用科学技术促使金融业务变得更加智能化. 然而, 针对
中文命 名实体识别在金融领 域中应用 的综述几乎没有, 这促 使本文进 行一项
有关金融领域中文命名实体方法的调查, 阐述相关技术的研究现状, 梳理并总
结现有科学技术在金融领域中文 NER 中的效果, 以发现金融领域中文 NER 仍
然存在的问题以及其他可探索的研究方法.
本文深入调查了中文命名实体识别在金融领域中的应用. 首先介绍 NER
的有关概念及其在金融领域中的特点, 然后将金融领域中文 NER 方法分为 3
大类: 基于规则和字典的方法、基于统计机器学习的方法、基于深度学习的方
法. 基于深度学习 的方法按照模型的训 练模式分为单任务学 习和多任 务联合
学习, 对金融领域中文 NER 公开数据集和工具进行简单介绍, 之后详细阐述
有关的评估方法. 此外, 本文还搜集了金融领域命名实体识别的应用, 最后介
绍金融领域中文 NER 仍然面临的挑战和未来的发展方向, 并对本文做出总结.
评论0
最新资源