基于改进BERT算法的专利实体抽取研究—以石墨烯为例.docx
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
![preview](https://dl-preview.csdnimg.cn/87292401/0001-3b72cb9315f1a48faf02cb321a00647e_thumbnail-wide.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
"基于改进BERT算法的专利实体抽取研究—以石墨烯为例" 本文旨在研究基于改进BERT算法的专利实体抽取技术,以石墨烯为例。专利文档中包含大量创新性工作,这些内容所蕴含的知识代表先进技术,对专利文档的分析可以获得专利所研究领域的技术及生产工艺发展情况。然而,由于专利文档数量的庞大性,如果每一篇都需要人工分析和信息提取的话,则工作量非常大,同时也会受到操作者本身技术能力的影响,因此采用自动获取技术是专利分析的第一要素。 自然语言处理在近些年来成功应用到诸多文档处理相关领域,获得了显著效果。基于实体关系的知识图谱技术也是采用符合人类社会模型认知的方式来深入挖掘实际事物之间的联系,进而完成知识演进。 本文将采用两种算法进行专利信息的抽取,实现对专利文本中的核心涉及物及关键工艺的认知。在专利知识抽取方面,国内有学者探索了基于规则、模板、机器学习、本体等多种抽取的方法。 文献[1]研究了专利摘要信息抽取的技术、步骤,结合词典、规则和统计模型方法,针对隐马尔可夫标注算法进行了合理改进,在抽取结果处理上提出了一套技术关键词识别模型及其算法。文献[2]提出了针对英文专利的,基于模板的自动获取方法。文献[3]提出一个基于本体的中文专利摘要抽取模型。 文献[4]在领域专利术语抽取的基础上,研究较大规模术语层次关系的解析,构建了含有层次关系的领域知识本体。文献[5]研究了使用不完备的语料库,在无人工参与的情况下,采用条件随机场的方法对字进行角色的标注,并设计术语识别的模型,取得了较好的效果,从专利中抽取的知识可用于辅助技术或产品创新。 文献[6]研究了基于同义词群提取的技术特征,用于外观设计专利的分析。国外在专利标注和知识抽取方面也有研究,文献[7]根据专利文档的结构和语义描述,对专利进行语义标注,帮助生物学家更好的利用专利信息。文献[8]基于文档结构以及专利文档内容的语义结构,利用自然语言和本体技术,对专利进行语义标注,便于对专利检索更好的分析。 文中还描述了专利分析人员分析过程中用到的一系列文本挖掘技术方案,包括文本切分、摘要抽取、特征项选择、词语关联、聚类、主题识别和信息映射等。结果证明自动抽取的概要相比其他片段更能表达原来的意思。这些技术有助于提高专利分析中用到的分类、组织、知识分享和现有技术检索。 文献[9]提出了一种基于语义要素统计和关键短语抽取的中文专利挖掘方法,用于从中文专利文档中抽取关键短语。该抽取技术基于“HowNet”的语义知识结构,利用统计的方法计算专利文档中的备选短语计算值。实验证明,该方法比单纯的频次统计方法有更高的精确率和召回率。 文献[10-11]介绍了一种词间关系抽取的方法,结合模板和统计指标来抽取词间的两种类型的层次关系:“IS-A”和“PART-OF”。 在专利实体抽取技术中,经典实体信息抽取技术包括专利实体及实体关系内容分析。专利实体内容指专利中所应用到的实体,包括化学材料、实验器材等,例如氧化石墨烯、碳纤维、烘箱、真空泵。这些实体都对整个专利的制作流程起着重要作用,而承载着这些实体的就是操作,每篇专利里都会对各种实体进行不同的操作,以此达到不同的目的,同种材料的不同操作方式、不同操作顺序也是一篇专利的创新性和新颖性的体现。 对专利的实体内容进行抽取分析,对比各个专利所使用的材料差异和操作差异,再结合对应的评价体系,最终得到专利的创新性和新颖性评价指标。实体关系抽取是判断专利新颖性的核心环节,其任务是从大量专利文本数据中抽取出能够表达专利工艺流程的结构化动宾关系,也就是关系双元组。 例如以石墨烯制备技术为例,在专利说明书中的发明内容中的工艺流程:<得到,氧化石墨烯分散液>,利用基于字级别的字符串搜索技术在专利中检索到包含此流程的原句为:“将氧化石墨烯(GO)于水中分散,得到氧化石墨烯分散液”。从这句话中得出抽取出来的“得到氧化石墨烯分散液”为此专利工艺流程的其中一步,以此种方法为例,最终可得到整个专利发明内容内的实体关系列表,整个列表又可作为专利的工艺流程序列,最终得到此专利的技术方案。 传统信息抽取算法文本文档是典型的非结构化信息,不能像数据库之类的信息可以通过键值对来进行数据分析和统计,但是文档却不限制文本的结构内容,进而可以承载更多的信息。非结构化文档信息抽取技术就是通过自然语言分析技术来实现对其核心内容的信息获取,其中实体与关系抽取是目前最为成功的技术。 目前传统的实体抽取和关系抽取都是采用串行的方式来进行,先完成对实体的识别与提取,然后再分析不同实体之间的关系。实体抽取第一步是进行命名实体识别(named entity recognition, NER),目前通用文档中识别,命名实体识别技术已经相对成熟,例如POS-tagging、Named Entity Recognition、Dependency Parsing等。 然而,这些技术存在一些缺陷,例如抽取结果的准确性、实体关系的多样性等问题,因此需要进一步的改进和研究,以提高专利实体抽取技术的精度和效率。
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/87292401/bg1.jpg)
![](https://csdnimg.cn/release/download_crawler_static/87292401/bg2.jpg)
剩余15页未读,继续阅读
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/3f07197aad004e4fa57ac5a008eb6aaf_weixin_57147647.jpg!1)
- 粉丝: 3907
- 资源: 1万+
![benefits](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-1.c8e153b4.png)
![privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-2.ec46750a.png)
![article](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-3.fc5e5fb6.png)
![course-privilege](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-4.320a6894.png)
![rights](https://csdnimg.cn/release/downloadcmsfe/public/img/vip-rights-icon.fe0226a8.png)
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)