没有合适的资源?快使用搜索试试~ 我知道了~
基于多特征多分类器集成的专利自动分类研究_贾杉杉1
需积分: 0 0 下载量 3 浏览量
2022-08-04
12:51:55
上传
评论
收藏 1.44MB PDF 举报
温馨提示
![preview](https://dl-preview.csdnimg.cn/86324985/0001-2c39e9fa36a2aa38aefb1a67ddd5de48_thumbnail.jpeg)
![preview-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/scale.ab9e0183.png)
试读
9页
摘要:【目的】为了准确地给专利申请书分配IPC分类号,本文提出一种基于多特征多分类器集成的专利自动分类方法。【方法】使用从专利申请书中提取的全词典 TFIDF
资源推荐
资源详情
资源评论
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083646.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![pdf](https://img-home.csdnimg.cn/images/20210720083512.png)
![](https://csdnimg.cn/release/download_crawler_static/86324985/bg1.jpg)
通讯作者: 彭涛, ORCID: 0000-0003-3533-9736, E-mail: pengtao@buu.edu.cn。
*本文系国家重点研发计划项目“公共安全风险防控与应急技术装备”(项目编号: 2016YFC0802107)和北京市教育委员会科技计划
面上项目(项目编号: SQKM201411417013)的研究成果之一。
76 数据分析与知识发现
会议专辑
基于多特征多分类器集成的专利自动分类
研究
*
贾杉杉
1
刘 畅
2
孙连英
3
刘小安
1
彭 涛
2
1
(北京联合大学智慧城市学院 北京 100101)
2
(北京联合大学机器人学院 北京 100101)
3
(北京联合大学城市轨道交通与物流学院 北京 100101)
摘要: 【目的】为了准确地给专利申请书分配 IPC 分类号, 本文提出一种基于多特征多分类器集成的专利自动分
类方法。【方法】使用从专利申请书中提取的全词典 TFIDF 特征、信息增益词典 TFIDF 特征、段落向量特征、
主题模型向量特征, 分别训练朴素贝叶斯、支持向量机、AdaBoost 分类器, 以此构建特征–类别矩阵, 并结合 F1
权重矩阵集成, 获得最终 IPC 预测分类号。【结果】对 2014 年–2016 年“发动机或泵”领域的 10 个小类进行分
类, 使用 Top Prediction、All Categories 和 Two Guesses 三种评估方法得到准确率分别为: 78.9%、80.1%、91.2%。
【局限】训练仅仅使用了 2014 年–2016 年共三年的专利数据, 数据规模有限。【结论】在“发动机或泵”领域, 本文
方法能够有效地提高专利文本分类的准确率。
关键词: 专利分类 段落向量 主题向量 分类器集成
分类号:
G250
1 引 言
中国知识产权局研究发现
[1]
, 知识资源和信息资
源是最主要的智力资源, 尤其是专利信息这样基于创
新、体现技术的资源。为了尽快找到和利用相关的专
利信息, 需要对每一件专利按照其技术内容分配相应
的专利分类号
[2]
。专利分类方法有很多, 其中使用最广
泛的是国际专利分类(International Patent Classification,
IPC)体系
[3]
, 其几乎包括了与发明创造有关的全部知
识领域, 中国、美国以及其他 50 多个国家和地区都在
使用。
使用 IPC 分类体系进行专利分类难点众多, 主
要有:
(1) 类别众多, 层次复杂, 最新的 IPC 分类体系有
7 万多个类别, 5 个层级;
(2) 一件专利可被赋予不止一个分类号;
(3) 为了扩大专利受保护范围, 专利申请人对于
专利申请的用词过于夸大;
(4) 类别之间相似度高, 对特征的表达能力要求高;
(5) 各个类别的专利数量严重不均衡, 给分类带
来巨大压力。
目前, 专利审查员主要使用手工分类, 少量借助
机器对专利进行分类。对于手工分类, 专利审查员需
要逐篇阅读专利文献以确定分类号, 这样做效率低、
费用高, 另外不同的人主观判断存在差别, 导致分类
效果一致性较差
[2]
。近年来, 已有许多学者采用基于机
器学习的方法对专利文本进行分类研究, 主要采用基
于词的特征和单一分类器进行分类。然而这种方法并
没有很好地解决专利文本分类这样复杂的文本分类任
务。因此, 机器分类的准确率需要进一步提升, 以辅助
资源评论
![avatar-default](https://csdnimg.cn/release/downloadcmsfe/public/img/lazyLogo2.1882d7f4.png)
![avatar](https://profile-avatar.csdnimg.cn/cd85a34a50d84617a41c68aa6cf6264d_weixin_35776153.jpg!1)
小埋妹妹
- 粉丝: 22
- 资源: 344
上传资源 快速赚钱
我的内容管理 展开
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![voice](https://csdnimg.cn/release/downloadcmsfe/public/img/voice.245cc511.png)
![center-task](https://csdnimg.cn/release/downloadcmsfe/public/img/center-task.c2eda91a.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![dialog-icon](https://csdnimg.cn/release/downloadcmsfe/public/img/green-success.6a4acb44.png)