没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种PST_LDA(词性标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,分别对名词、动词和其他词建立相应的LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本聚类准确率。将分离后的三个词集的LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在TanCorp-12数据集
资源推荐
资源详情
资源评论
收稿日期:20140920;修回日期:20141111
作者简介:张超(1989),男,河南固始人,硕士,主要研究方向为自然语言处理;陈利 (1961),女(通信作者),湖北武汉人,教授,主要研究方向为
中文信息处理、计算机应用(403609111@qq.com);李琼(1981),女,湖北天门人,副教授,硕士,主要研究方向为中文信息处理、计算机应用.
一种 PST_LDA中文文本相似度计算方法
张 超
1
,陈 利
1
,李 琼
2
(1.华中师范大学 计算机学院,武汉 430079;2.汉口学院 计算机科学与技术学院,武汉 430212)
摘 要:为了降低中文文本相似度计算方法的时间消耗、提高文本聚类的准确率,提出了一种 PST_LDA(词性
标注潜在狄利克雷模型)中文文本相似度计算方法。首先,对文本中的名词、动词和其他词进行词性标注;然后,
分别对名词、动词和其他词建立相应的 LDA主题模型;最后,按照一定的权重比例综合这三个主题模型,计算文
本之间的相似度。由于考虑了不同词性的词集对文本相似度计算的贡献差异,利用文本的语义信息提高了文本
聚类准确率。将分离后的三个词集的 LDA建模过程并行化,减少建模的时间消耗,提高文本聚类速度。在 Tan
Corp12
数据集分别用 LDA和 PST_LDA方法进行中文文本相似度计算模拟实验。实验结果显示,PST_LDA方
法不仅减少了建模时间消耗,同时在聚类准确率上有一定的提高。
关键词:词性标注;LDA模型;PST_LDA模型;文本相似度计算
中图分类号:TP391.1 文献标志码:A 文章编号:10013695(2016)02037503
doi:10.3969/j.issn.10013695.2016.02.012
ChinesetextsimilarityalgorithmbasedonPST_LDA
ZhangChao
1
,ChenLi
1
,LiQiong
2
(1.SchoolofComputer,CentralChinaNormalUniversity,Wuhan430079,China;2.SchoolofComputerScience&Technology,HankouUni
versity,Wuhan430212,China)
Abstract:Thispaperintroducedanewtextsimilarityalgorithm,whichwasbasedonthePST_LDA(partofspeechtagging
LDA),toreducethetimecomplexityofChinesetextsimilaritycalculationandimprovetheaccuracyoftextclustering.Theal
gorithmhadthreeprocedures.Firstly,itdividedthewordsintonounset,verbsetandlastwordssetaccordingtothepartof
speech.Secondly,appliedaLDAmodeltoeachset.Finally,itcombinedthreemodelsaccordingtothecertainproportionand
computedthedistanceoftwotextsbyJSsimilaritydistance.Duetodifferentcontributionfromthesets,thetextclusteringre
sulthasabetteraccuracy.Thealgorithm parallelizedmodelingthethreewordssetstotheuncorrelatedLDAmodels,which
couldacceleratethetextclusteringprocess.ThesimulationcomparedtheLDAmethodandthePST_LDAmethodontheTan
Corp12dataset.TheresultshowsthatthePST_LDAmethodreducesthemodelingtimewiththehighertextclusteringaccura
cy.
Keywords:partofspeechtagging;LDAmodel;PST_LDAmodel;textsimilaritycalculation
在中文信息处理中,文本相似度的计算广泛应用于信息检
索、机器翻译、自动问答系统、文本挖掘等领域,它是一个基础
而关键的问题,长期以来一直是人们研究的热点。
李艳梅
[1]
将文本建模为词频向量,用余弦相似度量等方
法计算文本相似度。该方法由于没有考虑文本中词项的语义
信息,计算结果准确率不够高,甚至可能出现计算结果错误。
庞大的文本数量和词项数目,导致文本相似度计算时间消耗过
长。黄承慧等人
[2]
和孟宪军
[3]
利用文本语义信息,借助外部
词典分析词项之间的语义相似度,综合词项相似度加权树以及
文本语义相似度计算相似度。但此方法受外部词典内容的片
面性影响和约束较大。孙昌年等人
[4]
采用 LDA建模得到文本
的主题分布,通过对文本的主题特征模型计算文本相似度。该
方法利用文本语义信息进行文本向量降维,减少了文本相似度
的计算复杂度,但是聚类的准确度却不高。
本文提出了一种
PST_LDA中文文本相似度计算方法。结
合文本中不同词性在聚类中贡献不同的思想
[5]
,对传统的
LDA方法进行改进,即考虑到名词、动词对文本分类的重要程
度,将词类分为名词、动词和其他词三类。首先将文本中的词
标注为三类,然后对不同词类的词集分别进行
LDA建模,最后
将它们按照贡献权重整合成一个 PST_LDA模型计算文本相似
度。由于考虑了不同词性的词项对文本相似度计算的贡献差
异,利用文本的语义信息提高了文本聚类准确率。将分离后的
三个词集的
LDA建模过程并行化,减少建模的时间消耗,提高
了文本聚类速度。
"
53<=78>
方法描述
"
"
模型构造
在中文文本中,不同词性特征在文本聚类中贡献度不同。
名词是表征文本内容的最重要词性,动词、形容词和副词均对
文本聚类结果有帮助
[5]
。将文本中的名词、动词和其他词分
离出来分别建立相应的 LDA模型,最后按照一定的权重比例
综合三个模型得到 PST_LDA模型。构造的 PST_LDA模型贝
叶斯网络如图 1所示。
第 33卷第 2期
2016年 2月
计 算 机 应 用 研 究
ApplicationResearchofComputers
Vol.33No.2
Feb.2016
资源评论
weixin_38609732
- 粉丝: 8
- 资源: 963
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- (源码)基于LLVM框架的代码生成与优化系统.zip
- (源码)基于Arduino的花盆自动化系统.zip
- (源码)基于ZigBee和STM32的智能家居环境监测监控系统.zip
- (源码)基于TensorFlow的多GPU CIFAR10并行训练系统.zip
- (源码)基于C++和Qt框架的游戏工作室服务器管理系统.zip
- (源码)基于Spring Boot的赛事管理系统.zip
- (源码)基于C#和ASP.NET Core的智能家居管理系统.zip
- (源码)基于rosserial的STM32嵌入式ROS通信系统库(Yoneken版改进版).zip
- 9.4 使用生成的识别器模型faceModel.xml预测新图像,并输出匹配结果标签和置信度
- (源码)基于Spring Boot和Shiro的电商管理系统.zip
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功