限定域文本语料的短语挖掘综述.rar资源-CSDN文库

共1个文件

pdf：1个

版权申诉

NLP

178 浏览量 2023-10-18 17:39:01 上传评论收藏 865KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

限定域文本语料的短语挖掘综述.rar （1个子文件）

限定域文本语料的短语挖掘综述.pdf 961KB

限定域⽂本语料的短语挖掘（Phrase Mining）

1⽉13⽇⼣⼩瑶的卖萌屋

⼀只⼩狐狸带你解锁NLP/ML/DL秘籍

正⽂来源：丁⾹园⼤数据

前⾔

短语挖掘（Phrase Mining）的⽬的在于从⼤量的⽂本语料中提取出⾼质量的短语，

是NLP领域中基础任务之⼀。短语挖掘主要解决专业领域（如医疗、科技等）的专业

词典不⾜的问题，减少⼈⼯整理成本。

⼤家都知道，jieba分词是中⽂分词领域⽐较好的⼯具[1,2]，其在分词时使⽤的⽅法

是根据已统计的词库，利⽤前缀词典对句⼦切分，根据所有切分的结果构建有向⽆

环图的⽅式寻找最优的切分路径。对于存在未登录词其使⽤的⽅式是根据序列标注

的结果，使⽤Viterbi算法计算最优的状态序列。使⽤jieba分词可以解决⼀些普适

化的需求，但是对于某些特定的专业领域，要达到较好的分词要求，需要整理⼀批

质量较⾼的专业领域词典。但是呢，我们可⽤到的数据往往是⼤量⽆标注的⽂本，

如果⼈⼯去整理成本会很⾼，所以我们可以通过什么⽅法可以⾃动提取⼀些⾼质量

的短语呢(●'◡'●)？

以医疗领域为例，丁⾹园⼤数据团队是⼀个处理医疗⼤数据的团队，每天要处理⼤

量的医疗⽂本数据，例如论坛⽂本，医学论⽂，诊断报告等（⾥⾯会不会也有⼩⼣

的数据呢）。这些专业医疗领域的数据和平时⽇常的数据有很⼤的不同，会有⼤量

我们听起来怕怕的专业术语⊙﹏⊙∥，抽取的⾼质量的短语⽆疑对优化检索内

容，taxonomy construction构建上下位层次结构、主题模型等等都⾮常的重要。

⽆监督抽取⽅法

根据丁⾹园log数据汇总发现，很多疾病词和症状词来源于⼀些特定词的排列组合，

⽐⽅说⽜奶过敏，急性鼻炎，是⼀些NN和形容词/动词的组合，其实就是浅层句法分

析的结果，例如："新⽣⼉急性鼻炎应该如何治疗"，coreNLP给出的结果如下图所

⽰：

其中新⽣⼉急性鼻炎是⼀个名词短语(NP)，是由NN + JJ + NN组成的，传统的⽅式

是根据POS规则模版[3]对phrase进⾏提取。但是在实际操作过程中⼜会存在⼀些问

题，⽐⽅说"如何治疗花粉过敏"这句话中的Phrase应该是花粉过敏，但是治疗和花粉

合并成了动词短语。但是如果要穷尽所有的POS pattern，并不是⼀件容易的事情，

⽽且pattern之间可能会存在⼀些冲突，于是pattern之间排序⼜成了另⼀个坑┑(￣Д

￣)┍。

2012年Matrix67提出了《互联⽹时代的社会语⾔学：基于SNS的⽂本数据挖掘》⼀

种基于统计学⻆度的新词挖掘算法，通过计算凝固度和左右临字信息熵抽取新词，

效果灰常不错o(*￣▽￣*)ブ。

《西游记》抽取结果如下所⽰：

⾏者，⼋戒，师傅，三藏，⼤圣，唐僧，沙僧，和尚，菩萨，怎么，⻓⽼，⽼孙，

两个，甚么，国王，徒弟...

《资本论》抽取结果：

资本，⽣产，价值，劳动，商品，货币，部分，⼯⼈，形式，价格，利润，我们，

作为，剩余价值，过程...

可以⽤在丁⾹论坛的医患对话⽇志上却差强⼈意，这个⽅法抽取⼤量⽤⼾俗语。

可以，如果，治疗，需要，医⽣，情况，建议，检查，什么，这个，问题，现在，

症状，⽬前，或者，医院...

于是考虑去除停⽤词后再试⼀试，发现效果确实有所改善，算法找到⼀些靠谱的词

汇⽐⽅说肝硬化,肝癌,拉肚⼦,⼤便不成型,痔疮出⾎,红⾊⼩疙瘩...。可是呢，这样的

操作对出现频率低的短语不是很友好，很有可能被阈值过滤掉，⼈⼯给定阈值，没

有⼀个很好的参照标准，数据中可能会存在很多的噪⾳，⽆法较好的筛选出有⽤的

短语。

2014年韩家炜团队的学⽣Ahmed El-Kishky提出⼀种基于频繁模式挖掘和统计的⽅法

TopMine，⽆监督的对语料进⾏Phrase Mining。这项⼯作的主要⽬的是对⽂本进

⾏主题挖掘。在这篇论⽂中将主题挖掘分为两个步骤，第⼀步根据Phrase Mining抽

取的结果对⽂本进⾏分割，第⼆部根据分割后的⽂本约束Topic模型。在Phrase

Mining中，根据上下⽂信息衡量合并后的score，判断是否对token进⾏合并，伪代码

如下所⽰：

通过给定阈值的⽅式进⾏迭代，其中score作为判断合并条件计算公式如下所⽰：

其举了⼀个很有意思的例⼦，⽐⽅说：Markov Blanket Feature Selection for

Support Vector Machines这句话来说如果只根据Vector可能只会把⽂章划分为数学

或者物理Topic中，但是显然Support Vector Machines是⼀个整体,根据⽀撑向量机可

以将其划分为计算机的主题下：

Kavita Ganesan2018年提出《How to incorporate phrases into Word2Vec – a text

mining approach》和2019年苏神给出了⼀个⽆监督挖掘⽅案《分享⼀次专业领域词

汇的监督挖掘》有相似之处，只不过苏神再基础上加⼊⼀些平⾏语料，根据停⽤词

确定phrase边界，⽤PMI等设定阈值⽅式抽取新词，进⾏分词，并构建词向量模型。

选取⼀些种⼦词汇作为初始词，根据抽取新词的词向量计算种⼦词之间的相似度，

设定阈值的⽅式将相似度⾼的词加⼊到候选集中，对于⽆监督短语挖掘是⼀种⽐较

新颖的思路，因为词向量包含丰富的上下⽂语义信息，通过上下⽂信息计算相似

度，将新词进⾏聚类，这种⽅式可以较好的筛选出⼀些⾼质量的phrase。但是在第

⼀步分词时，根据阈值所发现的新词边界不好控制，会存在⼤量噪⾳，⽐⽅说，在

《西游记》中会抽取出,⾏者笑道,那妖精,的和尚等词汇，所以在最后⼀步需要加⼊了

⼀些规则进⾏过滤。

弱/远程监督抽取⽅法

韩家炜团队关于Phrase Mining团队的三部曲，刚才已经简单的介绍了其中之⼀

TopMine，其主要⽬的是对语料库中的⽂本Topic进⾏挖掘，其中利⽤Phrase Mining

的⽅法对⽂本进⾏分割。其另外两部SegPhrase和AutoPhrase分别使⽤弱监督和远

程监督的⽅式对phrase进⾏抽取并进⾏质量监测。

评论收藏

内容反馈

版权申诉

QuietNightThought

粉丝: 1w+
资源: 633

限定域文本语料的短语挖掘综述.rar

限定域文本语料的短语挖掘综述.pdf

文本训练语料集.rar

复旦大学校园网二期工程标书.rar复旦大学校园网二期工程标书.rar

复旦大学谭松波中文文本分类语料库.rar

复旦大学谭松波中文文本分类语料库 .rar

word2vec语料文档text8.zip

第四章汉语语料库多级加工.ppt

智能机器人语料库.rar

复旦中文文本分类语料库.zip

python数据挖掘学习代码.rar

机器学习-金融客服相关场景下的50组中文普通话对话文本语料-机器学习数据处理必看-数据集.rar

复旦大学中文文本分类语料.xlsx

中文文本分类语料（由复旦大学李荣陆提供）(附停用词）.rar

（中文）文本分类语料（复旦）训练集+测试集.rar

机器学习-50组英文医疗领域客服场景对话文本语料-机器学习数据处理必看-数据集.rar

语料库SogouC.mini.2006.rar

英国国家语料库15000单词.doc

基于网页的语料库自动生成.pdf

智能问答系统语料库和模型.zip

相关实用应用程序（Windows可用）

免费可用的ChatGPT网页版.zip

ChatGPT使用总结：150个ChatGPT提示词模板（完整版）

李飞飞自传 我看见的世界 The World I see

chromedriver-win64.zip

全国计算机二级WPSoffice精选350道选择题题库（含答案）.pdf

哈尔滨工业大学-ChatGPT调研报告-2023.3.6-94页.pdf

智联招聘：2024年大学生就业力调研报告.pdf

4个亲测好用的ChatGPT4渠道

农村公交与异构无人机协同配送优化

最新资源

李飞飞自传我看见的世界 The World I see