SVM和lda结合的文本分类

共4个文件

py：3个

md：1个

文本分类

4星 · 超过85%的资源需积分: 48 131 下载量 83 浏览量 2017-04-29 21:38:43 上传评论 7 收藏 7KB ZIP 举报

温馨提示

简易有效的文本分类

资源推荐

资源详情

资源评论

收起资源包目录

lda_classifier.zip （4个子文件）

lda_classifier

README.md 795B

ldaExp.py 4KB

corpusLoader.py 7KB

classEval.py 3KB

共 4 条

* 输入语料: 采用sklearn自带的20 newsgroups (~20000篇文档)和nltk自带的reuters(10788篇文档) 1. ldaExp.py: 用gensim从指定语料(20newsgroup 或者reuters，通过命令行指定二者之一)中学习doc-topic分布并保存为 '语料名-train-文档数.svm-lda.txt' 和 '语料名-test-文档数.svm-lda.txt' 2. classEval.py: 用ldaExp.py生成的 '语料名-train-文档数.svm-lda.txt' 作为特征文件，进行训练，在 '语料名-test-文档数.svm-lda.txt' 上测试分类效果。 3. corpusLoader.py: 把sklearn的20newsgroups和nltk的reuters统一的语料访问接口。 ##运行命令实例: - python ldaExp.py 20news 生成 '20news-train-11314.svm-lda.txt' 和 '20news-test-7532.svm-lda.txt' - python classEval.py 20news lda 训练并评估模型效果

评论收藏

内容反馈

资源评论