基于gensimSDK的LDA主题模型（python）_lda主题模型python代码资源-CSDN文库

共28个文件

py：7个

txt：4个

xlsx：3个

版权申诉

python

175 浏览量 2024-01-31 13:02:31 上传评论收藏 38.88MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

Lda-Gensim-Python-main.zip （28个子文件）

Lda-Gensim-Python-main

LDACluster_copy.py 3KB

generateNewSqlTable.py 4KB

display.py 3KB

data

crawlerdb.sql 67.01MB

test_data2.txt 1KB

quora_answers_questions_filter_more.sql 20.32MB

stop_words.txt 4KB

stop_words_old.txt 14KB

stopwords.txt 4KB

Figure_1.png 51KB

Dictionary.py 757B

predict.py 2KB

LDACluster.py 12KB

query.py 2KB

models

dictionary.dict 53KB

corpus.lda-c.vocab 18KB

corpus.lda-c.index 12KB

lda_model_10_topics.lda.expElogbeta.npy 94KB

lda_model_10_topics.lda 13KB

lda_model_10_topics.lda.state 104KB

lda_model_10_topics.lda.id2word 71KB

corpus.lda-c 390KB

.gitignore 24B

README.md 2KB

result

quora_contents.xlsx 7.87MB

topics_30_keywords.xlsx 23KB

主题模型介绍.docx 16KB

topics_20_keywords.xlsx 20KB

# 基于Gensim的LDA模型 ## 数据来源 - data/crawlerdb.sql 中存储着爬取quora的回答文本 - quora_answers_questions_filter_more.sql 中存储着最终爬取和关键字相关的quora帖子 - 导入数据之后，quora_answers_questions表中可以获取对应的answer_content - 每个回答answer_content都会作为一个document进行数据预处理，并完成LDA模型训练 ## 模型 - 文本数据预处理： - 回答内容拆分成句子 - 句子拆分成单词（token） - 删除拆分后的停用词 - 词性标注，过滤掉所有非名词的单词 - 词性还原，还原为词根形式 - 词性还原后再删除一遍停用词（那些复数单词可能还原之后又会出现） - 将处理后的所有数据构建为语料库词典 - 基于语料库词典，将文本构建为词向量 - 使用Gensim SDK完成LDA模型的训练 ## 其他 - 停用词（data\stopwords.txt）：来源于康奈尔大学实验性SMART信息检索系统创建 - 代码学习reference：https://vladsandulescu.com/topic-prediction-lda-user-reviews/ - LDACluster_copy.py - 使用sklearn的LatentDirichletAllocation模型完成LDA训练的demo文件 - data\stop_words_old.txt - 是demo对应使用的停用词 - data\test_data2.txt - 是demo的数据 - query.py - 是用于从数据库中获取相关关键词的数据的测试文件 - data中的Figure_1.png是迭代训练寻找最优topic数量的可视化图 - generateNewSqlTable.py - 用于根据筛选条件重新生成数据库中的表

评论收藏

内容反馈

版权申诉