基于改进BERT算法的专利实体抽取研究—以石墨烯为例.docx资源-CSDN文库

版权申诉

21 浏览量 2022-12-15 14:22:46 上传评论收藏 442KB DOCX 举报

"基于改进BERT算法的专利实体抽取研究—以石墨烯为例" 本文旨在研究基于改进BERT算法的专利实体抽取技术，以石墨烯为例。专利文档中包含大量创新性工作，这些内容所蕴含的知识代表先进技术，对专利文档的分析可以获得专利所研究领域的技术及生产工艺发展情况。然而，由于专利文档数量的庞大性，如果每一篇都需要人工分析和信息提取的话，则工作量非常大，同时也会受到操作者本身技术能力的影响，因此采用自动获取技术是专利分析的第一要素。自然语言处理在近些年来成功应用到诸多文档处理相关领域，获得了显著效果。基于实体关系的知识图谱技术也是采用符合人类社会模型认知的方式来深入挖掘实际事物之间的联系，进而完成知识演进。本文将采用两种算法进行专利信息的抽取，实现对专利文本中的核心涉及物及关键工艺的认知。在专利知识抽取方面，国内有学者探索了基于规则、模板、机器学习、本体等多种抽取的方法。文献[1]研究了专利摘要信息抽取的技术、步骤，结合词典、规则和统计模型方法，针对隐马尔可夫标注算法进行了合理改进，在抽取结果处理上提出了一套技术关键词识别模型及其算法。文献[2]提出了针对英文专利的，基于模板的自动获取方法。文献[3]提出一个基于本体的中文专利摘要抽取模型。文献[4]在领域专利术语抽取的基础上，研究较大规模术语层次关系的解析，构建了含有层次关系的领域知识本体。文献[5]研究了使用不完备的语料库，在无人工参与的情况下，采用条件随机场的方法对字进行角色的标注，并设计术语识别的模型，取得了较好的效果，从专利中抽取的知识可用于辅助技术或产品创新。文献[6]研究了基于同义词群提取的技术特征，用于外观设计专利的分析。国外在专利标注和知识抽取方面也有研究，文献[7]根据专利文档的结构和语义描述，对专利进行语义标注，帮助生物学家更好的利用专利信息。文献[8]基于文档结构以及专利文档内容的语义结构，利用自然语言和本体技术，对专利进行语义标注，便于对专利检索更好的分析。文中还描述了专利分析人员分析过程中用到的一系列文本挖掘技术方案，包括文本切分、摘要抽取、特征项选择、词语关联、聚类、主题识别和信息映射等。结果证明自动抽取的概要相比其他片段更能表达原来的意思。这些技术有助于提高专利分析中用到的分类、组织、知识分享和现有技术检索。文献[9]提出了一种基于语义要素统计和关键短语抽取的中文专利挖掘方法，用于从中文专利文档中抽取关键短语。该抽取技术基于“HowNet”的语义知识结构，利用统计的方法计算专利文档中的备选短语计算值。实验证明，该方法比单纯的频次统计方法有更高的精确率和召回率。文献[10-11]介绍了一种词间关系抽取的方法，结合模板和统计指标来抽取词间的两种类型的层次关系：“IS-A”和“PART-OF”。在专利实体抽取技术中，经典实体信息抽取技术包括专利实体及实体关系内容分析。专利实体内容指专利中所应用到的实体，包括化学材料、实验器材等，例如氧化石墨烯、碳纤维、烘箱、真空泵。这些实体都对整个专利的制作流程起着重要作用，而承载着这些实体的就是操作，每篇专利里都会对各种实体进行不同的操作，以此达到不同的目的，同种材料的不同操作方式、不同操作顺序也是一篇专利的创新性和新颖性的体现。对专利的实体内容进行抽取分析，对比各个专利所使用的材料差异和操作差异，再结合对应的评价体系，最终得到专利的创新性和新颖性评价指标。实体关系抽取是判断专利新颖性的核心环节，其任务是从大量专利文本数据中抽取出能够表达专利工艺流程的结构化动宾关系，也就是关系双元组。例如以石墨烯制备技术为例，在专利说明书中的发明内容中的工艺流程：<得到，氧化石墨烯分散液>，利用基于字级别的字符串搜索技术在专利中检索到包含此流程的原句为：“将氧化石墨烯(GO)于水中分散，得到氧化石墨烯分散液”。从这句话中得出抽取出来的“得到氧化石墨烯分散液”为此专利工艺流程的其中一步，以此种方法为例，最终可得到整个专利发明内容内的实体关系列表，整个列表又可作为专利的工艺流程序列，最终得到此专利的技术方案。传统信息抽取算法文本文档是典型的非结构化信息，不能像数据库之类的信息可以通过键值对来进行数据分析和统计，但是文档却不限制文本的结构内容，进而可以承载更多的信息。非结构化文档信息抽取技术就是通过自然语言分析技术来实现对其核心内容的信息获取，其中实体与关系抽取是目前最为成功的技术。目前传统的实体抽取和关系抽取都是采用串行的方式来进行，先完成对实体的识别与提取，然后再分析不同实体之间的关系。实体抽取第一步是进行命名实体识别(named entity recognition, NER)，目前通用文档中识别，命名实体识别技术已经相对成熟，例如POS-tagging、Named Entity Recognition、Dependency Parsing等。然而，这些技术存在一些缺陷，例如抽取结果的准确性、实体关系的多样性等问题，因此需要进一步的改进和研究，以提高专利实体抽取技术的精度和效率。

资源推荐

资源详情

资源评论

专利文档中含有大量作者所进行的创新性工作，这些内容所蕴含的知识代表先进技

术，对专利文档的分析可以获得专利所研究领域的技术及生产工艺发展情况。但是由于专

利文档数量的庞大性，如果每一篇都需要人工分析和信息提取的话，则工作量非常大，同

时也会受到操作者本身技术能力的影响，因此采用自动获取技术是专利分析的第一要素。

自然语言处理在近些年来成功应用到诸多文档处理相关领域，获得了显著效果。基于实体

关系的知识图谱技术也是采用符合人类社会模型认知的方式来深入挖掘实际事物之间的联

系，进而完成知识演进。专利文本中核心的文档主要是说明书和权利要求，这两部分包含

了专利的大多数信息，权利要求以科学术语定义该专利或专利申请所给予的保护范围。说

明书则是对发明或者实用新型的结构、技术要点、使用方法做出清晰、完整的介绍，它包

含了背景技术、发明内容、附图说明、具体实施方案等项目。本文将采用两种算法进行专

利信息的抽取，实现对专利文本中的核心涉及物及关键工艺的认知。

在专利知识抽取方面，国内有学者探索了基于规则、模板、机器学习、本体等多种抽

取的方法。文献[1]研究了专利摘要信息抽取的技术、步骤，结合词典、规则和统计模型方

法，针对隐马尔可夫标注算法进行了合理改进，在抽取结果处理上提出了一套技术关键词

识别模型及其算法。文献[2]提出了针对英文专利的，基于模板的自动获取方法。文献[3]提

出一个基于本体的中文专利摘要抽取模型。文献[4]在领域专利术语抽取的基础上，研究较

大规模术语层次关系的解析，构建了含有层次关系的领域知识本体。文献[5]研究了使用不

完备的语料库，在无人工参与的情况下，采用条件随机场的方法对字进行角色的标注，并

设计术语识别的模型，取得了较好的效果，从专利中抽取的知识可用于辅助技术或产品创

新。文献[6]研究了基于同义词群提取的技术特征，用于外观设计专利的分析。国外在专利

标注和知识抽取方面也有研究，文献[7]根据专利文档的结构和语义描述，对专利进行语义

标注，帮助生物学家更好的利用专利信息。文献[8]基于文档结构以及专利文档内容的语义

结构，利用自然语言和本体技术，对专利进行语义标注，便于对专利检索更好的分析。文

中还描述了专利分析人员分析过程中用到的一系列文本挖掘技术方案，包括文本切分、摘

要抽取、特征项选择、词语关联、聚类、主题识别和信息映射等。结果证明自动抽取的概

要相比其他片段更能表达原来的意思。这些技术有助于提高专利分析中用到的分类、组

织、知识分享和现有技术检索。文献[9]提出了一种基于语义要素统计和关键短语抽取的中

文专利挖掘方法，用于从中文专利文档中抽取关键短语。该抽取技术基于“HowNet”的语义

知识结构，利用统计的方法计算专利文档中的备选短语计算值。实验证明，该方法比单纯

的频次统计方法有更高的精确率和召回率。文献[10-11]介绍了一种词间关系抽取的方法，

结合模板和统计指标来抽取词间的两种类型的层次关系：“IS-A”和“PART-OF”。

1. 经典实体信息抽取技术

1.1 专利实体及实体关系内容

专利实体内容指专利中所应用到的实体，包括化学材料、实验器材等，例如氧化石墨

烯、碳纤维、烘箱、真空泵。这些实体都对整个专利的制作流程起着重要作用，而承载着

这些实体的就是操作，每篇专利里都会对各种实体进行不同的操作，以此达到不同的目

的，同种材料的不同操作方式、不同操作顺序也是一篇专利的创新性和新颖性的体现。对

专利的实体内容进行抽取分析，对比各个专利所使用的材料差异和操作差异，再结合对应

的评价体系，最终得到专利的创新性和新颖性评价指标。

实体关系抽取是判断专利新颖性的核心环节，其任务是从大量专利文本数据中抽取出

能够表达专利工艺流程的结构化动宾关系，也就是关系双元组。例如以石墨烯制备技术为

例，在专利说明书中的发明内容中的工艺流程：<得到，氧化石墨烯分散液>，利用基于字

级别的字符串搜索技术在专利中检索到包含此流程的原句为：“将氧化石墨烯(GO)于水中

分散，得到氧化石墨烯分散液”。从这句话中得出抽取出来的“得到氧化石墨烯分散液”为此

专利工艺流程的其中一步，以此种方法为例，最终可得到整个专利发明内容内的实体关系

列表，整个列表又可作为专利的工艺流程序列，最终得到此专利的技术方案。

1.2 传统信息抽取算法

文本文档是典型的非结构化信息，不能像数据库之类的信息可以通过键值对来进行数

据分析和统计，但是文档却不限制文本的结构内容，进而可以承载更多的信息。非结构化

文档信息抽取技术就是通过自然语言分析技术来实现对其核心内容的信息获取，其中实体

与关系抽取是目前最为成功的技术。目前传统的实体抽取和关系抽取都是采用串行的方式

来进行，先完成对实体的识别与提取，然后再分析不同实体之间的关系。

实体抽取第一步是进行命名实体识别(named entity recognition, NER)，目前通用文档中

识别的命名实体主要是人物(person, PER)、地点(location, LOC)、机构(organization, ORG)、

时间(time, TIME)、数字(number, NUM)、描述(description, DES)和混杂(miscellaneous,

MISC)。但是考虑到所需处理的任务，就需要对所识别的实体进行调整。非结构化文档的

实体与关系抽取的传统流程为：首先对输入文本进行预处理，预处理主要完成分词、停用

词处理和词性标注，获得比较纯粹的文本词语。然后将处理之后的文本输入命名实体识别

模型中，在该模块中主要完成对命名实体的识别，一般是采用从前到后的处理过程，根据

前后关系和句法分析等方式来对输入的词汇进行判断。在此过程中，词汇的前后顺序也是

非常关键的信息。命名识别完成之后就实现了文本的序列标注，该结果可以输出到实体集

识别内，也是下一步实体关系识别的输入。关系识别需要对输入的多实体和其顺序标注进

行处理，通过学习关系模型，可以获得模型可识别的关系，比如位置关系、工作关系、隶

属关系等，流程如图 1 所示。

针对石墨烯专利文本，本文采用图 2 中传统框架完成对专利文本信息的抽取识别。

剩余15页未读，继续阅读

评论收藏

内容反馈

版权申诉

罗伯特之技术屋

粉丝: 3907
资源: 1万+

基于改进BERT算法的专利实体抽取研究—以石墨烯为例.docx

基于改进BERT算法的专利实体抽取研究——以石墨烯为例.pdf

融合语句-实体特征与Bert的中文实体关系抽取模型.docx

基于BERT阅读理解框架的司法要素抽取方法.docx

基于预训练模型的多标签专利分类研究.docx

深度学习实体关系抽取研究综述

基于BERT-BiGA模型的标题党新闻识别研究.docx

基于BERT-AWC的文本分类方法研究.docx

基于BERT的阅读理解式标书文本信息抽取方法.docx

改进BERT的中文评论情感分类模型.docx

基于孪生BERT网络的科技文献类目映射.docx

BERT模型的主要优化改进方法研究综述.docx

pytorch实现基于BERT的中文新闻事件抽取项目源码.zip

基于BERT和多相似度融合的句子对齐方法研究.docx

基于BERT-TextCNN的临床试验疾病亚型识别研究.docx

基于BERT+Biaffine结构的关系抽取模型源码+文档说明.zip

课程设计基于Bert+softmax的中文实体命名识别python源码+实验报告.zip

基于BERT多层网络的医疗实体抽取模型研究.pdf

相关实用应用程序（Windows可用）

李飞飞自传 我看见的世界 The World I see

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

chromedriver-win64.zip

第十九届研电赛-技术论文模板

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

1.txt

最新资源

李飞飞自传我看见的世界 The World I see