限定域⽂本语料的短语挖掘(Phrase Mining)
1⽉13⽇⼣⼩瑶的卖萌屋
⼀只⼩狐狸带你解锁NLP/ML/DL秘籍
正⽂来源:丁⾹园⼤数据
前⾔
短语挖掘(Phrase Mining)的⽬的在于从⼤量的⽂本语料中提取出⾼质量的短语,
是NLP领域中基础任务之⼀。短语挖掘主要解决专业领域(如医疗、科技等)的专业
词典不⾜的问题,减少⼈⼯整理成本。
⼤家都知道,jieba分词是中⽂分词领域⽐较好的⼯具[1,2],其在分词时使⽤的⽅法
是根据已统计的词库,利⽤前缀词典对句⼦切分,根据所有切分的结果构建有向⽆
环图的⽅式寻找最优的切分路径。对于存在未登录词其使⽤的⽅式是根据序列标注
的结果,使⽤Viterbi算法计算最优的状态序列。使⽤jieba分词可以解决⼀些普适
化的需求,但是对于某些特定的专业领域,要达到较好的分词要求,需要整理⼀批
质量较⾼的专业领域词典。但是呢,我们可⽤到的数据往往是⼤量⽆标注的⽂本,
如果⼈⼯去整理成本会很⾼,所以我们可以通过什么⽅法可以⾃动提取⼀些⾼质量
的短语呢(●'◡'●)?
以医疗领域为例,丁⾹园⼤数据团队是⼀个处理医疗⼤数据的团队,每天要处理⼤
量的医疗⽂本数据,例如论坛⽂本,医学论⽂,诊断报告等(⾥⾯会不会也有⼩⼣
的数据呢)。这些专业医疗领域的数据和平时⽇常的数据有很⼤的不同,会有⼤量
我们听起来怕怕的专业术语⊙﹏⊙∥,抽取的⾼质量的短语⽆疑对优化检索内
容,taxonomy construction构建上下位层次结构、主题模型等等都⾮常的重要。
⽆监督抽取⽅法
根据丁⾹园log数据汇总发现,很多疾病词和症状词来源于⼀些特定词的排列组合,
⽐⽅说⽜奶过敏,急性鼻炎,是⼀些NN和形容词/动词的组合,其实就是浅层句法分
析的结果,例如:"新⽣⼉急性鼻炎应该如何治疗",coreNLP给出的结果如下图所
⽰: