没有合适的资源?快使用搜索试试~ 我知道了~
一种专利技术主题分析的IPC语境增强Context-LDA模型研究.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 29 浏览量
2022-06-26
14:50:16
上传
评论 1
收藏 242KB DOCX 举报
温馨提示
专利技术主题分析的IPC语境增强Context-LDA模型研究 本文研究的主要目的是为了解决专利技术主题分析中存在的问题,提出了一种基于IPC语境增强的Context-LDA模型。该模型结合了IPC分类和LDA主题模型,以提高专利技术主题分析的准确性和可解释性。 本文简要介绍了主题(Topic)对技术领域的重要性,对技术发展进程和技术创新起着重要作用。然后,介绍了两种常见的专利技术主题识别途径:文档/术语聚类和主题模型。文档/术语聚类通过建立某种关联规则对文档进行聚类,但其缺陷是得到的聚类主题含义较为模糊。主题模型通过对文本非监督学习来获取文档主题,具有较好的语义表达特性和适应大规模文本的能力。 接着,本文介绍了主题模型在专利分析工作中的应用,包括专利推荐、主题识别、文本分类等方面。然后,介绍了现有的主题模型变型,例如DTM、BGTM、N元TNG、HLDA、TOT、ICT、AT、AToT、DICT等模型,每种模型都有其特点和应用场景。 然后,本文介绍了IPC与主题模型结合的研究,包括三个阶段:前期、后期和中期。在中期,IPC被用作主题模型中的一个参数,以获取主题在词、文本、技术分类或技术分类在词、文本上的概率分布。 本文提出了一种基于IPC语境增强的Context-LDA模型,以解决专利技术主题分析中存在的问题。该模型结合了IPC分类和LDA主题模型,以提高专利技术主题分析的准确性和可解释性。 本文的研究工作旨在解决专利技术主题分析中存在的问题,提出了一种基于IPC语境增强的Context-LDA模型,以提高专利技术主题分析的准确性和可解释性。
资源推荐
资源详情
资源评论
1 引言
主题()”代表了一种特定的研究方向是蕴含在文献中内容的核心具
有高度代表性和概括性
可以是一段时间内具有相似内容的文档集群也可由一
系列表征主题语义的主题词构成。在技术领域中主题一般称之为“技术主题”或
“技术概念”
其分析主要聚焦在对主题内容进行挖掘、分类、识别关系、了解演
化、预测发展
等方面其研究工作的开展对于把握技术发展进程、进行有效技术
创新、提供研发决策支持具有重要意义。
常见的专利技术主题识别途径有两种一种是建立某种关联规则的文档术语
聚类如基于共词关系分析
或基于引用分析来描述文档内容、挖掘主题分布
、
识别核心技术
、跟踪发展路径
。其优势是易用可行但缺陷是得到的聚类主题
含义较为模糊。另一种则是引入潜在语义维度的主题模型 通过对文本非监督学
习来获取文档主题尤其以经典的 ()模型
为代
表并出现了较多的改进模型如整合时间信息的
模型考虑复杂语义词序的
!
以词组建模的 " 元 "
#
等。主题模型因其较好的语义表达特性和适
应大规模文本的能力已成为主题分析的主流方法。可以预见主题模型将在未来
的专利分析工作中发挥重要作用。
2 研究现状
$主题模型及其变型
以 为核心的主题模型凭借可靠的“词袋”假设被广泛应用于专利分析工
作中包括专利推荐
、主题识别、文本分类
等方面。以模型的训练特征来看
其研究工作可分为两类一类是直接将 模型应用在专利语料上如马永红等
基于专利数据利用 主题模型提取文本中隐含的技术主题识别了领域的共
性技术。李慧等
利用 主题模型及其输出的概率分布矩阵 结合专利价值评
价指标挖掘了多属性的技术创新主题。另一类是依据分析目的或专利信息结构
对 模型进行适应性改进以优化模型效果。如以拓展语料分析基础单元为目
标 的 词 序 主 题 模 型 ( %& )
!
、 " 元 词 组 主 题 模 型
("' %" )
#
、层次主题模型((()
以增
加时间动态性为原则的动态主题模型()%&)
、时间
主题模型(*+%*)等
以增加专利分析维度为要求的 机
构'主题模型
、发明人'专利权人主题模型(,+'-%)',- )
、作者主题模型(.')以及将上述要素有机整合的作者主题演
化模型(.'*+% )
!
、动态发明人'专利权人主题模型
()%,+'-%),- )等多维度模型。虽然现有模型从
多个角度增强了主题建模过程的理解包括增加时间维度、增加词维度、增加专
利主体维度等但多数模型训练语料都是一个个独立、分离的词词组而单个单纯
的词词组所包含的语义信息有限仍存在主题辨识度低、不易解释
#
、缺乏语境
的问题专利文本中的词词组的技术语境问题值得探究。
$主题模型与 ,/- 的结合研究
目前 ,/- 与主题模型结合的时段可分为前、中、后三个阶段前期主要是基
于 ,/- 分类号对专利文本集进行初步聚类划分再利用 模型挖掘每个类簇中
文本的语义主题信息可以看作是对 建模前期的数据集优化
。后期多用
于对主题建模后的主题内容进行进一步分析以 ,/- 分类号度量技术主题强度
。而在中期一般是将 ,/- 作为主题模型中的一个参数来获取主题在词、文本、
技 术 分 类 或 技 术 分 类 在 词 、 文 本 上 的 概 率 分 布 。 如 等
提 出 的
00((0%'0.+1&( )模型将
分类体系中的每一个节点作为主题根据文档内容及其所属分类号推断主题对应
的词汇概率分布但因预先设定了一个文档仅属一个主题的假设不符合一个专利
往往隶属于多个主题的情况。吴红等
#
将 ,/- 作为主题技术词的语境构建了
2,' 模型以3单词分类号4二元组的 2,(2&,/-)形式进行主题训练以
增强词汇可解释性实现对专利文献主题的识别和分析但模型构建空间维度巨大
且以主分类号作为主题情景忽略了主题在次级分类号上的分布。陈亮
将 ,/-
作为主题概率抽取前的一个前提提出结合分类号的 /-115
在一篇专利的生成过程中增加了从专利的每一个单词中等概率抽取一个分类号
的环节该模型等概率抽取分类号的做法同样不符合一篇专利文献有主分类号和
其他次级分类号的现实情况且该模型的应用场景更加适合面向单个专利非整个
专利群体的技术主题分析。
通过梳理主题模型及其与 ,/- 的结合过程可以看到当下工作仍面临一些局
限:
()多数主题模型忽略了训练词汇出现的语境而最终识别的主题缺乏主题
情景表征能力不足难以清晰表达出主题的概念和深度主题模型词分离带来的语
境问题仍然值得注意。
(),/- 与主题模型的结合研究刚刚处于初期阶段语境增强的概念没有被
明晰化如何全面结合文本出现的所有 ,/-以及如何在减小建模代价的情况下更
好地增强模型的建模能力提高词汇的可解释性需要进一步研究。
鉴于此在前期工作基础上本研究进一步明确语境增强的概念通过全面引入
,/- 来改进 传 统 提出一种 面向专利 技术主 题 分析的 ,/- 语境 增 强模型
-6'主要思想是考虑文本所在 ,/- 语境并综合所有出现的 ,/-将文本
下的 ,/- 与文本词汇均一化处理以期达到词与 ,/- 相互表征、互相补充的目的
实现对专利文献技术主题的有效分析。
3 IPC 语境增强的 Context-LDA 模型
增强”具有增加、增进、加强的使动之意可通过叠加、改进达到优化目的。
“ 语 境 ” 一 般 指 语 言 环 境 是 语 言 学 中 - ( - 内 容 -6 语
境- 隐含意义)原则中重要的内容。目前语境增强”概念并不明晰
常见的类似概念如“语义增强”
是通过对数据库模式进行重建建立更高层次的
数据模型以清晰地表达数据中隐含的语义信息。主题模型中以 0*(0.78'
'*78)
为代表的语义三元组就是一种发生在数据建模前期的语义增强
形 式 通 过 扩 大 概 念 以 及 概 念 间 的 关 系 描 述 来 增 强 可 解 释 性 。 再 如 -.9'
+1
在主题识别后对每个主题中包含的主题词进行扩充也属于另一种语义
增加形式。而本研究提及的“语境增强”与“语义增加”同质其目的均是为了提高
数据的语义理解能力不同的是强化的手段和作用不同前者以增加词汇的出现背
景为依据如 2,'
#
模型就是使用 ,/- 作为词汇出现的技术场景而后者以扩
充语义层面上的表达能力为重心利用的多是自然语言处理手段。
国际专利分类号 ,/- 是一套经过领域专家严密考量和精心设计在国际上通
用的专利文献管理和利用工具主要应用于专利检索、专利管理以及专利技术分
析是专利文本中应用比较广泛的一个字段。,/- 分类体系遵循的是功能(发明
的基本作用)和应用(发明的用途)相结合以功能为主的分类原则其每一个分
类 号 都 代 表 具 体 的 技 术 范 围 。 此 外 它 还 采 用 等 级 形 式 将 技 术 内 容 按 部
(0)、分部(0.71)、大类(-11)、小类(0.711)、主
组(:.)、分组(0.7:.)逐级分类形成完整的分类体系。这里将
,/- 引入到主题模型时依靠的是 ,/- 所体现的技术性和功能性可以为词词组或
主题提供分析和解释的语境
#
在一定程度上缓解了传统 主题模型缺乏词汇
或主题出现语境的问题如主题词“电极”分别与 (# 或 (# 共同出现的含义
不同与 (# 共同出现意味着极大可能是电池领域中的电极而与 (# 共现
则更加偏向于用于电容器的电极制备。将 ,/- 和关键词结合的好处在于粗细结
合增强可解释性且技术语义表征上互相补充可加深对主题的全面理解。基于
,/- 语境增强的 -6' 模型如图
所示。模型中 ,/- 与词汇彼此分离却
又因出现在同一文本语料而以一种共现关系出现这点和之前研究形成 2, 二元
组的结构或将 ,/- 与词之间形成一个概率分布不同是因为 ,/- 和词汇虽然属于
表征技术内容的不同属性但是它们具有同源性只是在表达技术上的粒度不同词
汇和 ,/- 可以是一种对等、共现的关系。而且研究不需要得到主题与 ,/- 以及
,/- 与主题词之间的概率分布因为主题与 ,/- 之间的概率分析将 ,/- 与关键词
结合起来一样可以得到类似的结果 后者对于了解整个领域的 ,/- 层级及其相关
的技术分布更有帮助而本研究分析的目的是利用 ,/- 增强词的语境想要解决词
汇分离、可解释性较弱的问题因此将 ,/- 与词以文本共现关系结合起来比概率
选择要更好。同时一个专利文献中的所有 ,/- 都被纳入因为一个专利文本可能
具有多个 ,/-具有多项技术应用语境技术的复杂性也决定一项专利可能具有多
个技术主题各个技术主题之间具有复杂的相互关系
。
图
剩余14页未读,继续阅读
资源评论
罗伯特之技术屋
- 粉丝: 4417
- 资源: 1万+
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功