下载  >  大数据  >  算法与数据结构  > 基于概率生成模型的文本主题建模及其应用

基于概率生成模型的文本主题建模及其应用 评分

基于概率生成模型的文本主题建模及其应用,主要讲述LDA主题模型的应用。
Y1853574 Probabilistic Generative Models-based Topic model- ing of Text and its Applications Authors signature: Supervisor's signature External Reviewers CHEN Enhong Professor University of Science and Technology HUANG Houkuan Professor\ Beijin Jiaotong University SUN Le Research Fellow Chinese Academy of Sciences Examining Committe Chairperson ZHUANG Yueting Professor Zhejiang University Examining Committe Members WANG ShenKang Professor Zhejiang University ReN Wuling\ Professor\ Zhejiang Gongshang University HUANG Decai\ Professor\ Zhejiang University of Technolog. LI Shanping Professor\ Zhejiang University Date of oral defence: September 2010 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得浙江大学或其他教育机 构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名 采解0 学位论文版权使用授权书 本学位论文作者完全了解浙江大学有关保留、使用学位论文的规定, 有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和 借阅。本人授权浙江大学可以将学位论文的全部或部分内容编入有关数据库 进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 (保密的学位论文在解密后适用本授权书 学位论文作者签名 丁获群 导师签名 P 鉴字日期年月8日签字日期260年)月日 学位论文作者毕业后去向: 工作单位 电话 通讯地址: 邮编 浙江大学博上学位论文 致谢 致谢 时光飞逝,转眼间我作为博士研究生的这段求学生涯已近尾声。然而回首望 去,这段人生中宝贵的时光中确无比充实,其间点缀着喜悦,彷徨和辛酸。值此博 士论文成稿之际我想要感谢一直带领我,陪伴我走过这段学习生活旅程的人,没有 你们我没有办法走到这一步 首先我要感谢我的博士生导师李善平教授。李老坼具有敏锐的洞察能力,严谨 的治学态度,一丝不苟的工作精神以及轻松风趣的言谈风格,从我开始成为博士研 究生以来就一直是我学习的榜样。李老师为整个实验室创造了轻松的学术讨论环 境,使我乐于积极参与到学术讨论中去,与其他师兄弟共同成长。而讨论过程中李 老师对我们的工作方法和科研思路的独到的点评更是令我受益颇丰。在这些年的研 究工作中,我曾对研究前景感到迷茫,曾因为实验结果没有达到预期效果而郁闷, 也曾对审稿的意见表示困惑。每次我能走出这些低谷都离不开李老师的鼓勋和指 导。这些经历都将成为指导我今后人生的宝贵的财富。 特别需要感谢的是我的父母丁利明先生和江彩英女士。是你们一直给我无私的 爱,是你们从小就教导我脚踏实地的人生态度,是你们一直教育我只有努力奋斗才 会有希望,是你们的微笑和鼓励让我鼓起勇气克服了一段段艰难的时光。 感谢我的师兄徐斌。每次和你的讨论总是能给我带来一些意想不到的启发,而 你积极向上的学习态度,一步一个脚印的科研作风给我树立了一个优秀博士研究生 的榜样。感谢我的师弟张振,不会忘记我们一起调程序的夜晚,不会忘记我们对着 满屏幕数据的激烈争论。感谢实验室的其他师兄弟:周晓震,叶振,王冲。能与你 们合作研究是我的荣幸。 丁轶群 2010年6月6日 浙江大学博上学位论义 摘要 摘要 在以信息化、数字化和网络化为特征的2世纪里,海量的文本数据正在从各个 方面以各和形式深层次地影响着我们的生活。如果说 Google、 Baidu等搜索引擎通 过帮助我们从海量文本中准确地查找相关的文本而带来了人们利用文本信息的第 一次革命,文本挖掘则通过从海量文本中挖掘出新的知识帮助人迅速理解海量文本 带来了人们利用文本信息的第二次革命 文本聚类是文本挖掘两大重要研究问题之一2]。文本聚类根据文本的内容的 相似性将文本集合归为若干个“类”。文本聚类将理解海量的文本的过程从“以单个 文本为单位逐篇理解文本集合内各文本”的过程简化为“以文本类为单位逐个理解文 本集合内各个主题的过程。一个文本类代表了一个统一的主题内容,可以帮助人 们快速理解海量文本集合的内容,也可以被其他文本处理方法进一步挖掘和利用。 然而传统的文本聚类方法主要关注如何将文本集合归类,而对文本类本身的研究却 只有初步的尝试。主题建模利用贝叶斯概率模型为“主题”、“主题间关系”等抽象概 念建立明确的模型,并利用近似概率推理方法从文本数据中挖掘出这些抽象概念, 弥补了文本聚类研究领域内对文本类本身研究的不足。主题建模方法以其出色的对 高维数据的降维能力,对真实世界中复杂系统的建模能力以及灵活易扩展的模型设 计方法,成为文本挖掘領域近年来的一个热门研究方向,并在图像欠理、金融、软 件工程等众多领域得到了广泛的应用。本文正是基于以上的背景,对主题建模研究 中若干关键问题进行了研究,并尝试了主题建模方法在其他研究领域的应用。主要 工作内容和创新点体现在以下几个方面 主题模型设计的研究。树状层次化主题关系和有向无环图主题关系的引 入增强了主题模型对复杂文本生成过程的建模能力。然而本文的研究工作表明,这 类复杂的主题模型内部随机变量之闫存在的相关性使得某些常用的近似概率推理算 法(Gibs抽样算法)收敛速度慢,容易陷入局部最大点,导致算法无法挖掘岀文 本数据中蕴含的语义。针对这个问题,我们提出了一个新的随机过程:嵌套的层 次化 Dirichlet过程( nested hierarchical Dirichlet process,并基于该随机过程提出两 浙江大学博上学位论文 摘要 个层次化主题模型。我们的理论分析和实验表明,在这两个主题模型中约引入“亚 主题”和“层次映射”的概念,有效解决了随机变量间的相关性带来的模型推理的困 难 近似概率推理方法的研究。由于主题模型的复杂性,主题模型的精确推理超 过了现有的计算能力。马尔可夫链蒙特卡罗( Markov chain monte carlo)方法是一 种广泛使用的主题模型的近似推理方法。利用MCMC方法进行的主题模型的推理 过程就是运行 Markov链直至其收敛到主题模型定义的各隐含随机变量的联合概率 分布的过程。MCMC方法的收敛速度决定了主题建模处理海量文本的能力。然而 由于一些主题模型中大量随机变量之间复杂的关系,一些MCMC方法收敛速度很 慢S。本文提出的ASM抽样算法是MCMC方法的一种。ASM抽样算法能够在运行 的过程中充分利用 Markov链当前汏恋内所有的信息动态调整转移矩阵,提高收敛 速度。实验表明,相比现有约类似算法,ASM抽样算法能够在更短的时间内收敛 到更好的结果。 主题模型在移动建模中应用的研究。主题建模不仅是文本处理领域近年来热 门的研究方向,也在其他研究领娀得到广泛的应用。移动建模是移动计算中一个重 要的硏究问题。移动建模为无线网络用户的移动方式建模,解决用户的移动性带来 的如资源部署、路由协议设计等各种难題。在栘动建模硏究领域存在一种特殊的数 据,即通过各种姼动设备,如手机、车载GPS、无线通信网终等记录下的移动用户 在环境中留下的一连串的轨迹记录( trace log)。这些轨迹记录和文本数据一样具有 高维度、数据量大、内部蕴含复杂的模式的特点。传统的移动建模方法大都采用 以 Markov模型、隐 Markov漠型为代表的时序模型。我们指出在一些场景下非时序 模型比时序模型更加适合用来挖掘用户移动行为背后的目的。我们首次提出了层次 化的移动模式的概念,并首次将主题建模引入到移动建模研究领城中。实验表明我 们提出的基于嵌套的 Dirichlet过程混合过程的移动模型能比隐 Markov模型获得更高 的推广能力,利用主题建模方法挖掘出的移动模式也更容易为模型使用者理解。 关键词:文本挖掘主题建模贝叶斯模型贝叶斯模型的近似概率推理方法 浙江大学博上学位论文 Abstract Abstract We are faced with a world of digital information in the 2lst centry text information is affecting our lives in various ways. Search engines such as Google and Baidu brought us the first wave of revolution in our way of utilizing text in formation by helping us locate relevant information. Text mining technologies extract genuine knowledge from text, and are bringing us the second wave of revolution by helping us understand text information Text clustering is one of two major research areas in text mining 2. Text clustering can group texts into clusters according to text contents, with each cluster representing a group of semantically similar texts. With the help from text clustering, all it takes to un derstand a large text collection is going through a small number of clusters. Results of text clustering can also act as inputs of other text processing routines for further analysis However, traditional text clustering analysis focuses on the clustering of texts into groups The study of the clusters themselves has not attracted much attention. The research of topic models fixes this problem by directly modeling abstract concepts such as topics and topic relationships in a Bayesian approach. The topic modeling approach can effectively deal with"the curse of dimensionality"by dimension reduction, it offers a principled way of modeling complex processes in real world and the models can be extended to account for various kinds of domain knowledge. In this dissertation the author focuses on several key problems in topic modeling, and also the application of topic modeling methods in other research areas. The specific issues and contributions of our work include: The research on topic model designs. The introduction of hierarchical topic rela tionship and DAG-structured topic relationships makes topic modeling a more powerful modeling tool. However as pointed out in our work, the correlation among the random variables in complex models can often make probabilistic inference algorithms such as Gibbs sampling coverge slowly or get trapped in local maxima, To deal with this prob- lem, we proposed a new random process: the nested hierarchical dirichlet process. Based

...展开详情
所需积分/C币:7 上传时间:2018-04-04 资源大小:7.88MB
举报 举报 收藏 收藏
分享 分享
群体推荐主题生成模型(GIST)

一种基于个体和子群的群体推荐主题生成模型(GIST),融合个人和组典范推荐,弥补传统推荐系统的不足

立即下载
基于深度神经网络的文本表示及其应用

以深度神经网络为手段,以文本表示为研究对象,对自然语言中不同粒度的文本即词、句、段的表示学习及其应用进行了深入研究。本文将所提出的方法应用到了序列标注、语句匹配、机器翻译以及自动文摘生成问题上,并取得了良好的效果。

立即下载
ModbusTCP/RTU网关设计

基于UIP协议栈,实现MODBUS联网,可参考本文档资料,有MODBUS协议介绍

立即下载
html+css+js制作的一个动态的新年贺卡

该代码是http://blog.csdn.net/qq_29656961/article/details/78155792博客里面的代码,代码里面有要用到的图片资源和音乐资源。

立即下载
iCopy解码软件v1.0.1.7.exe

解ic,id,hid卡密码破解ic,id,hid卡密码破解ic,id,hid破解ic,id,hid卡破解ic,id,hid卡密码密码卡密码破解ic,id,hid卡...

立即下载
分布式服务框架原理与实践(高清完整版)

第1章应用架构演进1 1.1传统垂直应用架构2 1.1.1垂直应用架构介绍2 1.1.2垂直应用架构面临的挑战4 1.2RPC架构6 1.2.1RPC框架原理6 1.2.2最简单的RPC框架实现8 1.2.3业界主流RPC框架14 1.2.4RPC框架面临的挑战17 1.3SOA服务化架构18 1.3.1面向服务设计的原则18 1.3.2服务治理19 1.4微服务架构21 1.4.1什么是微服务21 1.4.2微服务架构对比SOA22 1.5总结23 第2章分布式服务框架入门25 2.1分布式服务框架诞生背景26 2.1.1应用从集中式走向分布式.26?

立即下载
Camtasia 9安装及破解方法绝对有效

附件中注册方法亲测有效,加以整理与大家共享。 由于附件大于60m传不上去,另附Camtasia 9百度云下载地址。免费自取 链接:http://pan.baidu.com/s/1kVABnhH 密码:xees

立即下载