【免费】文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化1

需积分: 0 30 浏览量 2022-08-03 21:26:37 上传评论收藏 1.4MB PDF 举报

文本挖掘是一种从大量文本数据中提取有用信息和知识的技术，涉及到自然语言处理、机器学习等多个领域。本篇文章主要探讨的是主题模型的主题数确定和可视化，这是文本挖掘中的关键环节。主题模型是一种统计建模方法，它能够从无结构的文本中发现隐藏的主题或概念。在文本挖掘中，常见的主题模型包括LSA（潜在语义分析）、LDA（潜在狄利克雷分配）、RP（随机投影）和HDP（层级狄利克雷过程）。这些模型通过分析词频和文档结构，揭示文本内部的主题结构。在主题模型中，选择合适的主题数至关重要。过于少的主题可能导致主题过于宽泛，丢失细节；而过多的主题则可能导致过度细分，难以理解和解释。确定主题数的方法有多种，例如： 1. **Coherence Score**：通过计算不同主题数下的模型的凝聚度（coherence）来评估。凝聚度越高，说明主题内部的单词关联性越强，模型通常被认为越好。这里使用了`gensim`库的`CoherenceModel`和`LdaModel`来计算不同主题数下的模型凝聚力。 2. **可视化工具**：如`pyLDAvis`库可以直观地展示不同主题数下主题模型的结果，帮助我们理解各个主题的分布和相关性。通过可视化，我们可以直观地比较不同主题数对模型的影响，选择最能反映文本结构的主题数量。在给出的代码示例中，作者创建了一个小型的语料库，包含了与“苹果”（作为水果和公司名）相关的13个文档，并进行了分词和去停用词处理。通过训练不同主题数（2和6）的主题模型，展示了主题数对模型效果的影响。通过比较这两个模型的凝聚力得分和可视化结果，可以判断哪个主题数更合适。在实际应用中，确定主题数的过程可能需要迭代和调整。通常，我们会尝试一系列可能的主题数，结合凝聚度得分和可视化结果，选择最佳的模型。同时，理解特定领域的背景知识也有助于确定合理的主题数量。此外，`gensim`库的`get_term_topics`和`get_document_topics`方法用于获取单个词汇在各个主题中的概率分布以及每个文档中各个主题的分布情况，这有助于深入理解模型的输出结果。文本挖掘中的主题模型可以帮助我们理解大规模文本数据的内在结构，选择合适的主题数并进行有效的可视化是提高模型解释性和实用性的关键步骤。通过理论结合实践，我们可以更好地掌握这一技术，应用于文本分析、信息检索、情感分析等实际场景。

资源详情

资源评论

资源推荐

2020/7/11 文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化

https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ==&mid=2650414934&idx=3&sn=d3db1faeb5ec9687d70397183c7163a4&chksm=becd

…

1/19

文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化

以下文章来源于Social Listening与文本挖掘，作者Scottish Fold Cats

Social Listening与文本挖掘

爱好文本分析，社会化媒体数据挖掘

写在前面：笔者最近在梳理自己的文本挖掘知识结构，借助gensim、sklearn、keras等库的文档做了些扩充，会陆陆续续

介绍文本向量化、tfidf、主题模型、word2vec，既会涉及理论，也会有详细的代码和案例进行讲解，希望在梳理自身知识

体系的同时也能对想学习文本挖掘的朋友有一点帮助，这是笔者写该系列的初衷。

前

面

几

篇

文

章

从

词

向

量

空

间

模

型

、

词

袋表

示

、

TF-IDF

聊

到

各

类

主

题

模

型

（

LSA

、

LDA

、

和

HDP

），

再

到

基

于

LSA/LSI

的

文

本

检

索

，

本

文

将

回

到

主

题

模

型

这

个

话

题

中

来

，

聊聊

主

题

模

型

中

的

主

题

数

该

如

何

确

定

，

以

及

主

题

模

型

的

可

视

化

，

请

大

家

enjoy~

温馨提示：图片显示毛糙和不清楚，是分辨率过高的缘故，点击图片，即可看到高清大图。

首先，导入必要的库：

from gensim.corpora import Dictionary

from gensim.models import ldamodel

from gensim.models import CoherenceModel, LdaModel

from gensim import models

import numpy

%matplotlib inline

昨天AINLP

2020/7/11 文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化

https://mp.weixin.qq.com/s?__biz=MjM5ODkzMzMwMQ==&mid=2650414934&idx=3&sn=d3db1faeb5ec9687d70397183c7163a4&chksm=becd

…

2/19

在这里，笔者想展示gensim的主题模型中的2个新的方法 --- get_term_topics和get_document_topics ，

接下来，大家将会看到，在不同的语境中，同一个词汇的意义会不一样的情形（The same word which

might have different meanings in different context）。

笔者想以“苹果”一词为例，苹果最常见的含义是水果；另一个含义是苹果公司，该公司拥有世界知名的

iPhone和Mac。在下面的示例数据集中，有13个文档，每个文档经过分词处理和去停用词处理。

根据上述想法，笔者构建了如下语料库，已经经过分词和去停用词处理，短小精悍，用作demo数据刚刚

好。

接下来，笔者将训练两个主题模型，差异在于主题数的不同，按照笔者构建的语料库构成来看，主题数应该

是2，假如是其他的主题数，模型的效果应该不好。

下面，基于假设，“好”的主题模型的主题数为2，“坏”的主题模型的主题数为6。

texts = [

['苹果','叶子','椭圆形','树上'],

['植物','叶子','绿色','落叶乔木'],

['水果','苹果','红彤彤','味道'],

['苹果','落叶乔木','树上','水果'],

['植物','营养','水果','维生素'],

['营养','维生素','苹果','成分'],

['互联网','电脑','智能手机','高科技'],

['苹果','公司','互联网','品质'],

['乔布斯','苹果','硅谷'],

['电脑','智能手机','苹果','乔布斯'],

['苹果','电脑','品质','生意'],

['电脑','品质','乔布斯'],

['苹果','公司','生意','硅谷']

]

dictionary = Dictionary(texts)

corpus = [dictionary.doc2bow(text) for text in texts]

numpy.random.seed(1) #

设

置

随

即

种

子

数

，

以便

相

同

的

设

置

能

跑

出

相

同

的

结

果

，

可

复

现

goodLdaModel = LdaModel(corpus=corpus, id2word=dictionary,

iterations=50, num_topics=2)

badLdaModel = LdaModel(corpus=corpus, id2word=dictionary,

iterations=50, num_topics=6)

剩余18页未读，继续阅读

评论收藏

内容反馈

UEgood雪姐姐

粉丝: 43
资源: 319

文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化1

评论0

最新资源

文本挖掘从小白到精通（五）---主题模型的主题数确定和可视化1

评论0

科技文本挖掘及可视化

citespace科技文本挖掘及可视化.pdf

文本挖掘从小白到精通（四）---文本相似度检索1

基于文本挖掘的可视化竞争情报提取

大数据搜索与日志挖掘及可视化方案--ELK+Stack+Elasticsearch+Logstash+Kibana.pdf

Python疫情大数据分析之可视化分析、GIS地图及文本挖掘、知识图谱代码（博客前五篇）

Python实现LDA主题模型以及模型可视化

28.基于LDA和pyLDAvis的主题挖掘及可视化1

森林可视化模型模拟技术 - 大数据可视化之路51页.pptx

基于Python的疫情数据可视化分析项目源码+数据+详细文档，新闻信息抓取及词云可视化、文本聚类和LDA主题模型文本挖掘

基于Spark的Web文本挖掘系统的研究与实现-beta2 - 副本.docx

主题模型java代码

文本关联&知识图谱可视化--示例数据

人工智能-数据挖掘-数据挖掘可视化模型及其应用研究.pdf

数据挖掘入门到精通_R语言(学途无忧)课程PPT和代码.zip

Python数据分析、挖掘与可视化（慕课版）.rar

人工智能-项目实践-深度学习-可视化-YoloX可视化训练插件.zip

【代码分享】手把手教你：基于Django的新闻文本分类可视化系统（文本分类由bert实现）

基于python的新闻文本分析和可视化.zip

基于python的财经新闻文本挖掘分析与可视化论文

文本挖掘技术研究进展.pdf

文本挖掘概述与方法

基于文本的地理空间数据挖掘与可视化

人工智能-项目实践-可视化-Twitter数据挖掘及其可视化.zip

topic-model_主题模型_

文本挖掘与R语言

最新资源