# 基于Gensim的LDA模型
## 数据来源
- data/crawlerdb.sql 中存储着爬取quora的回答文本
- quora_answers_questions_filter_more.sql 中存储着最终爬取和关键字相关的quora帖子
- 导入数据之后,quora_answers_questions表中可以获取对应的answer_content
- 每个回答answer_content都会作为一个document进行数据预处理,并完成LDA模型训练
## 模型
- 文本数据预处理:
- 回答内容拆分成句子
- 句子拆分成单词(token)
- 删除拆分后的停用词
- 词性标注,过滤掉所有非名词的单词
- 词性还原,还原为词根形式
- 词性还原后再删除一遍停用词(那些复数单词可能还原之后又会出现)
- 将处理后的所有数据构建为语料库词典
- 基于语料库词典,将文本构建为词向量
- 使用Gensim SDK完成LDA模型的训练
## 其他
- 停用词(data\stopwords.txt):来源于康奈尔大学实验性SMART信息检索系统创建
- 代码学习reference:https://vladsandulescu.com/topic-prediction-lda-user-reviews/
- LDACluster_copy.py - 使用sklearn的LatentDirichletAllocation模型完成LDA训练的demo文件
- data\stop_words_old.txt - 是demo对应使用的停用词
- data\test_data2.txt - 是demo的数据
- query.py - 是用于从数据库中获取相关关键词的数据的测试文件
- data中的Figure_1.png是迭代训练寻找最优topic数量的可视化图
- generateNewSqlTable.py - 用于根据筛选条件重新生成数据库中的表
没有合适的资源?快使用搜索试试~ 我知道了~
基于gensim SDK的LDA主题模型 (python)
共28个文件
py:7个
txt:4个
xlsx:3个
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 175 浏览量
2024-01-31
13:02:31
上传
评论
收藏 38.88MB ZIP 举报
温馨提示
数据来源 data/crawlerdb.sql 中存储着爬取quora的回答文本 quora_answers_questions_filter_more.sql 中存储着最终爬取和关键字相关的quora帖子 导入数据之后,quora_answers_questions表中可以获取对应的answer_content 每个回答answer_content都会作为一个document进行数据预处理,并完成LDA模型训练 模型 文本数据预处理: 回答内容拆分成句子 句子拆分成单词(token) 删除拆分后的停用词 词性标注,过滤掉所有非名词的单词 词性还原,还原为词根形式 词性还原后再删除一遍停用词(那些复数单词可能还原之后又会出现) 将处理后的所有数据构建为语料库词典 基于语料库词典,将文本构建为词向量 使用Gensim SDK完成LDA模型的训练 LDACluster_copy.py - 使用sklearn的LatentDirichletAllocation模型完成LDA训练的demo文件 data\stop_words_old.txt - 是demo对应使用的停用词
资源推荐
资源详情
资源评论
收起资源包目录
Lda-Gensim-Python-main.zip (28个子文件)
Lda-Gensim-Python-main
LDACluster_copy.py 3KB
generateNewSqlTable.py 4KB
display.py 3KB
data
crawlerdb.sql 67.01MB
test_data2.txt 1KB
quora_answers_questions_filter_more.sql 20.32MB
stop_words.txt 4KB
stop_words_old.txt 14KB
stopwords.txt 4KB
Figure_1.png 51KB
Dictionary.py 757B
predict.py 2KB
LDACluster.py 12KB
query.py 2KB
models
dictionary.dict 53KB
corpus.lda-c.vocab 18KB
corpus.lda-c.index 12KB
lda_model_10_topics.lda.expElogbeta.npy 94KB
lda_model_10_topics.lda 13KB
lda_model_10_topics.lda.state 104KB
lda_model_10_topics.lda.id2word 71KB
corpus.lda-c 390KB
.gitignore 24B
README.md 2KB
result
quora_contents.xlsx 7.87MB
topics_30_keywords.xlsx 23KB
主题模型介绍.docx 16KB
topics_20_keywords.xlsx 20KB
共 28 条
- 1
资源评论
十小大
- 粉丝: 9228
- 资源: 2552
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功