情报学报 2022 年 3 月 第 41 卷 第 3 期
Journal of the China Society for Scientific and Technical Information, Mar. 2022, 41(3): 287-299
基于自然语言处理的产业链知识图谱构建
毛瑞彬
1,2
,朱 菁
2
,李爱文
2
,周倚文
2
,潘斌强
2
,岳 琳
3
(1. 武汉大学信息资源研究中心,武汉 430072;2. 深圳证券信息有限公司,深圳 518022;
3. 天津大学管理与经济学部,天津 300110)
摘 要 产业链知识图谱在金融领域应用较为广泛,但目前多数研究是面向单一产业的知识图谱构建或面向产业竞
争情报服务,并没有把产业链和知识图谱有机地结合起来。本文从产业链应用角度出发,对产业链知识图谱的构建方
法进行研究。首先提出了产业链知识图谱的构建流程和本体库,再基于领域语言模型,实现知识分类、抽取、融合等
金融领域文本处理方法,对海量的领域文本进行知识抽取和融合,最终成功构建产业链知识图谱。根据本文方法构建
的产业链知识图谱系统,覆盖产业链 78 个,细分行业 7629 个,已经应用到投融资、监管和产业规划等多个重要场
景中。
关键词 产业链;知识图谱;领域语言模型;实体和关系联合抽取
Construction of Knowledge Graph of Industry Cha in Based on
Natura l La nguage P rocessing
Mao Ruibin
1,2
, Zhu Jing
2
, Li Aiwen
2
, Zhou Yiwen
2
, Pan Bi nqiang
2
and Yue Lin
3
(1. Center for Studies of Inf ormation Resources, Wuhan Universit y, Wuhan 430072;
2. Shenzhen Securities Information Co., Ltd, Sh enzhen 518022;
3. Department of Management and Economics, Ti anjin University, Tianjin 300110)
Abstrac t:Industry chain knowled ge graphs are widely used i n the financial field, but m ost of the current studies are bas ed
on single-industry know ledge graphs or industrial competitive intelligence services, and these have not organically com‐
bined the industry chain a nd knowledge graph. From the perspective of the ap plication, this paper e xamines the construc‐
tion method of the i ndustry chain knowledge graph. First, the construction process and ont ology database are proposed.
Based on the domain language model, the financial domain text processing methods suc h as know ledge classification, ex‐
traction, and fusion are realized, massive domain texts are extracted and integrated, and the industrial chain knowledge
graph is successfully constructed . The industry ch ain knowledge graph system constructed according to the method herein
cov ers 78 industrial chains and 7629 subdivided industries, which is applied to many critical fina ncial activities such as in‐
vestment and financing, sup ervision, and industrial planning.
Key words: industry chain; knowle dge graph; domain language model; entity and relation joint extraction
收稿日期:2020-03-02;修回日期:2021-09-25
基金项目:国家重点研发计划项目“亿级节点时序图谱实时智能分析关键技术与系统”课题五“金融时序知识图谱查询与分析平台及应用
验证”(2020AAA0108505)。
作者 简介: 毛瑞彬,男,1982 年生,博士研究生,主要从事自然语言处理和知识图谱研究,E-mail:robin.mao@whu.edu.cn;朱菁,女,
1990 年生,硕士,主要从事自然语言处理研究;李爱文,男,1993 年生,硕士,主要从事行业研究;周倚文,女,1994 年生,
硕士,主要从事自然语言处理研究;潘斌强,男,1 992 年生,硕士,主要从事自然语言处理研究;岳琳,女,1997 年生,硕士
研究生,主要从事计算实验金融和资产定价研究。
DOI: 10.3772/j.issn.1000-0135.2022.03.007
评论0