没有合适的资源?快使用搜索试试~ 我知道了~
基于语义匹配的多标签多层级中文专利分类.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 4 浏览量
2022-12-01
09:06:40
上传
评论 1
收藏 688KB DOCX 举报
温馨提示
试读
12页
基于语义匹配的多标签多层级中文专利分类.docx
资源推荐
资源详情
资源评论
1. 引言
我国的专利审查工作中,审查员处理一项新申请专利的首要任务就是分析专利的技术
主题特征,与国际专利分类体系(International Patent classification, IPC)的分类标签进行匹
配,从而为专利分配多个相应的 IPC 分类号.IPC 分类体系包含部、大类、小类、大组和小
组 5 个层级,共 7 万类,人工分类的效率低、成本高、可靠性差.因此,使用专利的自动化
分类方法辅助人工分类具有实际使用价值.
现有的方法
[1]
通常考虑语序特征、上下文特征进行中文文本分类,但仅针对 IPC 专利
分类表中的“部”类进行单标签分类,不能进行多标签以及更细层级的专利分类.已有工作
[2]
使用预训练语言模型进行中文文本专利分类,但仅采用“部”类和“大类”少数层级标签进行
分类,对于更深层次的分类效果较弱.为此,本文将文本多标签分类方法引入到中文专利分
类任务中.文本多标签分类的任务是给一个待分类文本匹配多个相应的标签.在模型输出层设
计方面,主要从输出标签的概论分布中确定测试样本的标签集合,使其适用于多标签分类
任务,例如 MLKNN
[3]
、Rank-SVM
[4]
直接修改了多分类模型 KNN、RNN 的输出层.基于深
度学习的多标签分类工作,主要以提升多标签分类的准确性为目标,适用于大规模多标签
文本分类 Extreme multi-label text classification (XMTC)任务
[5]
,例如 Chalkidis 等人
[6]
(2019)
基于大规模法律文本进行多标签分类.但是上述方法未对文本标签分层特性展开研究,针对
这一问题,Baker 等人
[7]
(2017)利用标签共现关系,例如上位词(hypernymy),使其适用于用
于分层分类.Huang
[8]
等人提出一种基于分层注意力的循环神经网络(HARNN),通过整合文
本和分层类别结构,将文档逐级分类为最相关的类别.随着图神经网络在文本分类领域的广
泛应用,研究人员使用图神经网络为多标签文本分类任务捕捉标签之间的依赖关系,例如
MAGNET
[9]
等.
针对词编码高维稀疏矩阵问题,google 提出 Word2vec
[10]
文本向量化表示方法,以“词
的语义由其上下文表示”为主要思想,采用低维稠密向量对文本进行特征表示,有助于机器
理解,能够解决梯度爆炸的问题,但是训练的是静态词向量,无法解决一词多义问题.在此
基础上,预训练模型 ELMO
[11]
和 GPT
[12]
分别采用时序网络 RNN、Transformer
[13]
作为特征提
取器,根据词的上下文信息动态调整特征 embedding.预训练语言模型 Bert
[14]
通过在海量语
料基础上进行自监督训练,为每个词习得多语义、通用的好的表示,各类任务直接通过
fine-tuning 就能应用于下游任务,例如 PatentBert
[15]
通过微调 Bert 预训练模型进行专利分
类.
文本语义相似度计算主要采用基于向量空间的计算方法,以向量的形式来表示文本,
通过计算文本向量间的距离计算以得到相似度.基于主题模型的计算方法,例如 LSA
[16]
,
LDA
[17]
等,采用用余弦相似度等度量算法来计算得到语义相似度.基于知识库的语义文本相
似度计算方法通过运用结构化语义词典进行计算
[18]
,包括利用词典中信息的相似度,以及
利用网络知识之间的内容和链接进行相似度计算.以及基于深度学习的计算方法主要应用孪
生网络模型和交互网络模型,在输出层之前加入匹配层进行相似度计算,二者的共同点在
于分支的网络结构相同,区别在于孪生网络的两个分支的句子编码层不共享参数,例如
DSSM
[19]
;交互网络在孪生网络的基础上增加了交互,例如 BIMPM
[20]
.
由于现有大部分工作忽略了标签解释文本的语义特征,并且传统文本分类方法不能应
用到多层级的场景,本文针对中文专利文本的数据特点,在从专利文本中提取文本语义特
征的同时,从 IPC 分类表的多层级分类标签解释文本中提取语义特征,通过将专利文本语
义特征与 IPC 分类表中的“部、大类、小类、大组和小组”中的解释文本语义关系进行匹
配,由于本文的主要任务是从专利文本和专利多层级标签中分别提取语义特征,两种特征
属于长-短文本相似度计算问题,孪生网络由于网络分支共享参数,导致用长短文本比较容
易出现分类误差,对此本文采用伪孪生网络.伪孪生网络比孪生网络更灵活,能够通过两个
不同的网络结构接收不同模式的数据
[21]
,本文采用的伪孪生网络两个分支结构不同且不共
享参数,有助于分别提取长文本、短文本特征,最终实现多标签、多层级的中文专利分类.
2. 多标签多层级语义匹配方法
本文提出了一种基于语义匹配的多标签多层级专利文本分类方法(PSSM, Chinese
patent classification based on Pseudo-siamese network and semantic matching),如图 1 所示,
其整体框架包括三个主要模块:
图 1 多标签多层级语义匹配框架流程
Figure 1. Multi-label multi-level semantic matching framework
下载: 全尺寸图片 幻灯片
专利数据预处理模块,将专利文本和 IPC 分类标签解释文本经过数据清洗后,送入
Bert 预训练语言模型进行处理,得到专利文本和 IPC 分类标签解释文本的词嵌入表示.该种
词嵌入包含位置信息、序列信息和上下文信息,将词嵌入作为下一模块特征提取层的输入.
特征提取模块,将数据预处理模块得到的文本向量表示输入到对应的分支结构,得到
两种特征表示, 分别是基于卷积神经网络和注意力机制得到的 IPC 语义特征表示,以及基
于 Transformer 网络提取到的专利文本语义特征表示.最后将两种输出共同送入模型进行训
练.
测试样本语义匹配模块,将特征提取模块中输出的两种文本语义向量表示进行文本语
义匹配,通过相似度计算输出匹配的相似值.
基于上述关于整体框架的描述,本章将从问题定义、网络模型及其技术细节进行阐述.
2.1 问题定义
定义 1.专利语义提取.本文采用专利标题和专利摘要作为专利文本,定义专利文本为
P={p
1
, p
2
, …, p
i
, …, p
m
},其中,m 为专利文本总篇数,p
i
为第 i 篇专利文本,p
i
={t
i
+a
i
},t
i
为第 i 篇专利的标题文本,a
i
为第 i 篇专利的摘要数据.定义语义提取层 S1,经过 S1 提取得
到 p
i
对应的语义特征 S1(p
i
).
定义 2.IPC 标签语义提取.定义 IPC 分类标签解释文本为 L={l
1
, l
2
, …, l
t
, …, l
n
},其
中,n 为 IPC 分类标签解释文本总数,l
t
为第 t 个 IPC 分类标签解释文本.定义语义提取层
S2,经过 S2 提取得到 l
t
对应的语义特征 S2(l
t
).
定义 3.多标签多层级语义匹配.将专利文本 p
i
和 IPC 分类标签解释文本 l
t
分别送入两个
不同的网络进行语义提取,将提取后的语义特征 S1(p
i
)和 S2(l
t
)送入语义匹配层进行相似度
计算.最后,对于一个专利文本样本,得到关于 K 个标签的相似度集合,通过 Softmax 对相
似度集合进行归一化操作,排序后构造出匹配的专利 IPC 分类标签集合
Out_L={out_l
1
, out_l
2
, …, out_l
k
},得到关于样本 p
i
的 k 个相关分类标签.
本文描述了基于语义匹配的多标签多层级中文专利文本分类的相关定义.本文的目标是
为待分类专利文本匹配多个与之相关的多层级标签.主要通过从专利文本(标题和摘要)中提
取文本语义、从 IPC 分类标签解释文本中提取标签语义,将传统的多分类问题转化为基于
语义特征的文本匹配问题,以实现专利文本多标签多层级分类任务.
2.2 多标签多层级语义匹配网络模型
本文构建的多标签多层级语义匹配网络模型采用伪孪生网络架构.伪孪生网络发展于孪
生网络模型,二者的共同点在于都含有双分支架构,区别在于孪生网络的分支之间共享权
重参数,而伪孪生网络不共享.两个网络模型主要通过自监督学习,利用带标签的训练集对
模型进行训练.其结构主要分为三层:输入层,神经网络编码层,相似度匹配层.通过两个共
享参数的神经网络结构分别训练原始数据和目标数据,最终通过相似度计算方法测量出两
个文本的语义相似性.
由于专利文本一般很长,但是 IPC 分类号中的各分类标签解释内容文本较短,因此本
文的研究属于长文本-短文本语义匹配问题.孪生网络由于采用相同结构的网络分支共享参
数,导致在长短文本语义匹配方面比较容易出现分类误差,而伪孪生网络可以采取两种不
同的分支结构分别进行特征提取,因此伪孪生网络更适合于此应用场景.
剩余11页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 3677
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Java和Javascript的音乐悬浮歌词设计源码 - musicLrc
- ripgrep tools
- kubesphere离线安装v3.3的centos7iso资源
- xx 文库下载神器,目前亲测试pdf 有效
- kubesphere离线安装v3.3的v3.0.7的kk资源
- kubesphere离线安装v3.3的ubuntu2020iso资源
- 一个简单的Python脚本,它包含了将点分十进制IP地址转换为32位整数(通常称为IPv4地址的整数表示)和进行简单的IP地址校
- scratch2源码星球大战
- Java springboot 创建springboot项目基础框架
- 成绩管理系统后台20240529135001
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功