基于语义匹配的多标签多层级中文专利分类.docx资源-CSDN文库

版权申诉

4 浏览量 2022-12-01 09:06:40 上传评论 1 收藏 688KB DOCX 举报

资源推荐

资源详情

资源评论

1. 引言

我国的专利审查工作中，审查员处理一项新申请专利的首要任务就是分析专利的技术

主题特征，与国际专利分类体系(International Patent classification, IPC)的分类标签进行匹

配，从而为专利分配多个相应的 IPC 分类号.IPC 分类体系包含部、大类、小类、大组和小

组 5 个层级，共 7 万类，人工分类的效率低、成本高、可靠性差.因此，使用专利的自动化

分类方法辅助人工分类具有实际使用价值.

现有的方法

[1]

通常考虑语序特征、上下文特征进行中文文本分类，但仅针对 IPC 专利

分类表中的“部”类进行单标签分类，不能进行多标签以及更细层级的专利分类.已有工作

[2]

使用预训练语言模型进行中文文本专利分类，但仅采用“部”类和“大类”少数层级标签进行

分类，对于更深层次的分类效果较弱.为此，本文将文本多标签分类方法引入到中文专利分

类任务中.文本多标签分类的任务是给一个待分类文本匹配多个相应的标签.在模型输出层设

计方面，主要从输出标签的概论分布中确定测试样本的标签集合，使其适用于多标签分类

任务，例如 MLKNN

[3]

、Rank-SVM

[4]

直接修改了多分类模型 KNN、RNN 的输出层.基于深

度学习的多标签分类工作，主要以提升多标签分类的准确性为目标，适用于大规模多标签

文本分类 Extreme multi-label text classification (XMTC)任务

[5]

，例如 Chalkidis 等人

[6]

(2019)

基于大规模法律文本进行多标签分类.但是上述方法未对文本标签分层特性展开研究，针对

这一问题，Baker 等人

[7]

(2017)利用标签共现关系，例如上位词(hypernymy)，使其适用于用

于分层分类.Huang

[8]

等人提出一种基于分层注意力的循环神经网络(HARNN)，通过整合文

本和分层类别结构，将文档逐级分类为最相关的类别.随着图神经网络在文本分类领域的广

泛应用，研究人员使用图神经网络为多标签文本分类任务捕捉标签之间的依赖关系，例如

MAGNET

[9]

等.

针对词编码高维稀疏矩阵问题，google 提出 Word2vec

[10]

文本向量化表示方法，以“词

的语义由其上下文表示”为主要思想，采用低维稠密向量对文本进行特征表示，有助于机器

理解，能够解决梯度爆炸的问题，但是训练的是静态词向量，无法解决一词多义问题.在此

基础上，预训练模型 ELMO

[11]

和 GPT

[12]

分别采用时序网络 RNN、Transformer

[13]

作为特征提

取器，根据词的上下文信息动态调整特征 embedding.预训练语言模型 Bert

[14]

通过在海量语

料基础上进行自监督训练，为每个词习得多语义、通用的好的表示，各类任务直接通过

fine-tuning 就能应用于下游任务，例如 PatentBert

[15]

通过微调 Bert 预训练模型进行专利分

类.

文本语义相似度计算主要采用基于向量空间的计算方法，以向量的形式来表示文本，

通过计算文本向量间的距离计算以得到相似度.基于主题模型的计算方法，例如 LSA

[16]

，

LDA

[17]

等，采用用余弦相似度等度量算法来计算得到语义相似度.基于知识库的语义文本相

似度计算方法通过运用结构化语义词典进行计算

[18]

，包括利用词典中信息的相似度，以及

利用网络知识之间的内容和链接进行相似度计算.以及基于深度学习的计算方法主要应用孪

生网络模型和交互网络模型，在输出层之前加入匹配层进行相似度计算，二者的共同点在

于分支的网络结构相同，区别在于孪生网络的两个分支的句子编码层不共享参数，例如

DSSM

[19]

；交互网络在孪生网络的基础上增加了交互，例如 BIMPM

[20]

由于现有大部分工作忽略了标签解释文本的语义特征，并且传统文本分类方法不能应

用到多层级的场景，本文针对中文专利文本的数据特点，在从专利文本中提取文本语义特

征的同时，从 IPC 分类表的多层级分类标签解释文本中提取语义特征，通过将专利文本语

义特征与 IPC 分类表中的“部、大类、小类、大组和小组”中的解释文本语义关系进行匹

配，由于本文的主要任务是从专利文本和专利多层级标签中分别提取语义特征，两种特征

属于长-短文本相似度计算问题，孪生网络由于网络分支共享参数，导致用长短文本比较容

易出现分类误差，对此本文采用伪孪生网络.伪孪生网络比孪生网络更灵活，能够通过两个

不同的网络结构接收不同模式的数据

[21]

，本文采用的伪孪生网络两个分支结构不同且不共

享参数，有助于分别提取长文本、短文本特征，最终实现多标签、多层级的中文专利分类.

2. 多标签多层级语义匹配方法

本文提出了一种基于语义匹配的多标签多层级专利文本分类方法(PSSM, Chinese

patent classification based on Pseudo-siamese network and semantic matching)，如图 1 所示，

其整体框架包括三个主要模块：

图 1 多标签多层级语义匹配框架流程

Figure 1. Multi-label multi-level semantic matching framework

下载: 全尺寸图片幻灯片

专利数据预处理模块，将专利文本和 IPC 分类标签解释文本经过数据清洗后，送入

Bert 预训练语言模型进行处理，得到专利文本和 IPC 分类标签解释文本的词嵌入表示.该种

词嵌入包含位置信息、序列信息和上下文信息，将词嵌入作为下一模块特征提取层的输入.

特征提取模块，将数据预处理模块得到的文本向量表示输入到对应的分支结构，得到

两种特征表示, 分别是基于卷积神经网络和注意力机制得到的 IPC 语义特征表示，以及基

于 Transformer 网络提取到的专利文本语义特征表示.最后将两种输出共同送入模型进行训

练.

测试样本语义匹配模块，将特征提取模块中输出的两种文本语义向量表示进行文本语

义匹配，通过相似度计算输出匹配的相似值.

基于上述关于整体框架的描述，本章将从问题定义、网络模型及其技术细节进行阐述.

2.1 问题定义

定义 1.专利语义提取.本文采用专利标题和专利摘要作为专利文本，定义专利文本为

P={p

, p

, …, p

}，其中，m 为专利文本总篇数，p

为第 i 篇专利文本，p

={t

}，t

为第 i 篇专利的标题文本，a

为第 i 篇专利的摘要数据.定义语义提取层 S1，经过 S1 提取得

到 p

对应的语义特征 S1(p

定义 2.IPC 标签语义提取.定义 IPC 分类标签解释文本为 L={l

, l

, …, l

}，其

中，n 为 IPC 分类标签解释文本总数，l

为第 t 个 IPC 分类标签解释文本.定义语义提取层

S2，经过 S2 提取得到 l

对应的语义特征 S2(l

定义 3.多标签多层级语义匹配.将专利文本 p

和 IPC 分类标签解释文本 l

分别送入两个

不同的网络进行语义提取，将提取后的语义特征 S1(p

)和 S2(l

)送入语义匹配层进行相似度

计算.最后，对于一个专利文本样本，得到关于 K 个标签的相似度集合，通过 Softmax 对相

似度集合进行归一化操作，排序后构造出匹配的专利 IPC 分类标签集合

Out_L={out_l

, out_l

, …, out_l

}，得到关于样本 p

的 k 个相关分类标签.

本文描述了基于语义匹配的多标签多层级中文专利文本分类的相关定义.本文的目标是

为待分类专利文本匹配多个与之相关的多层级标签.主要通过从专利文本(标题和摘要)中提

取文本语义、从 IPC 分类标签解释文本中提取标签语义，将传统的多分类问题转化为基于

语义特征的文本匹配问题，以实现专利文本多标签多层级分类任务.

2.2 多标签多层级语义匹配网络模型

本文构建的多标签多层级语义匹配网络模型采用伪孪生网络架构.伪孪生网络发展于孪

生网络模型，二者的共同点在于都含有双分支架构，区别在于孪生网络的分支之间共享权

重参数，而伪孪生网络不共享.两个网络模型主要通过自监督学习，利用带标签的训练集对

模型进行训练.其结构主要分为三层：输入层，神经网络编码层，相似度匹配层.通过两个共

享参数的神经网络结构分别训练原始数据和目标数据，最终通过相似度计算方法测量出两

个文本的语义相似性.

由于专利文本一般很长，但是 IPC 分类号中的各分类标签解释内容文本较短，因此本

文的研究属于长文本-短文本语义匹配问题.孪生网络由于采用相同结构的网络分支共享参

数，导致在长短文本语义匹配方面比较容易出现分类误差，而伪孪生网络可以采取两种不

同的分支结构分别进行特征提取，因此伪孪生网络更适合于此应用场景.

剩余11页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3677
资源: 1万+

基于语义匹配的多标签多层级中文专利分类.docx

基于预训练模型的多标签专利分类研究.docx

基于单片机的数字电能表设计开题报告.docx.docx

基于SpringCloud-微服务系统设计解决方案.docx.docx

实验三 基于simulink的通信系统仿真...docx

基于Node.js多人博客系统的设计与实现.docx

基于机器学习的文本情感多分类的学习与研究.docx

基于机器学习的流量分类.docx

基于多媒体词边注释的中职英语阅读微信小程序.docx.pdf

基于修正标签分布的乳腺超声图像分类.docx

基于springcloud分布式session共享.docx.docx

2019-2020年研究成果：基于分数阶导数的天气和气候要素时间序列关系分析.docx.docx

基于改进的YOLOv3网络的干湿垃圾识别分类方法.docx

基于SIMULINK的2ASK仿真(课程设计)...docx

基于SpringCloud-微服务系统设计解决方案.docx.pdf

基于MATLAB的DSB系统的研究与仿真..docx

基于MATLAB的FSK调制解调1(1)...docx

基于JavaSocket多客户端并发通信聊天程序的设计与实现..docx

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

李飞飞自传 我看见的世界 The World I see

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

农村公交与异构无人机协同配送优化

4个亲测好用的ChatGPT4渠道

学术海报模板+论文科研+研究生

北森能力测评题库.zip

最新资源

实验三基于simulink的通信系统仿真...docx

李飞飞自传我看见的世界 The World I see