# PhasesMiner
#### 介绍
菜鸡学生慢慢啃论文写的python中文分词。
#### 软件架构
main.py 主运行程序
Reader.py 新闻文件读取器
Evaluator.py 读取data中的新闻,通过词频挖掘词表并估值
Classifier.py 调用sklearn库的随机森林,进行词汇估值
Segmenter.py 对新闻进行分词
sample.csv 人工挑选的随机森林训练样本
test.csv 人工挑选的随机森林测试样本
stopwords.txt 网上获取的标准停止词汇
#### 安装教程
1. 该项目使用python3.7
2. 安装pandas, numpy, scipy, sklearn (建议scipy下载离线包)
#### 使用说明
1. 运行MakeList.py初步提取词汇
2. 手动从生成的词汇表result.txt提取样本,并在后面添加标签
3. 运行TestClassfier.py测试随机森林分类器
#### 参与贡献
1. Fork 本仓库
2. 新建 Feat_xxx 分支
3. 提交代码
4. 新建 Pull Request
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
软件架构 main.py 主运行程序 Reader.py 新闻文件读取器 Evaluator.py 读取data中的新闻,通过词频挖掘词表并估值 Classifier.py 调用sklearn库的随机森林,进行词汇估值 Segmenter.py 对新闻进行分词 sample.csv 人工挑选的随机森林训练样本 test.csv 人工挑选的随机森林测试样本 stopwords.txt 网上获取的标准停止词汇 安装教程 该项目使用python3.7 安装pandas, numpy, scipy, sklearn (建议scipy下载离线包) 使用说明 运行MakeList.py初步提取词汇 手动从生成的词汇表result.txt提取样本,并在后面添加标签 运行TestClassfier.py测试随机森林分类器
资源推荐
资源详情
资源评论
收起资源包目录
phases-miner-master.zip (39个子文件)
phases-miner-master
Classifier.py 2KB
Segmenter.py 1B
Reader.py 842B
data
zbn_cmn_200010 5.91MB
xin_cmn_200308 8.11MB
xin_cmn_200307 10.81MB
xin_cmn_200012 11.39MB
xin_cmn_200304 11.94MB
xin_cmn_200306 9.45MB
zbn_cmn_200305 11.94MB
xin_cmn_200101 9.77MB
zbn_cmn_200308 11.23MB
xin_cmn_200010 11.12MB
xin_cmn_200305 10.52MB
zbn_cmn_200011 5.42MB
zbn_cmn_200309 11.68MB
xin_cmn_200011 10.13MB
zbn_cmn_200304 10.85MB
zbn_cmn_200101 5.33MB
xin_cmn_200309 10.57MB
zbn_cmn_200306 11.4MB
zbn_cmn_200012 5.39MB
stopwords.txt 5KB
zbn_cmn_200307 11.54MB
LICENSE 483B
phases-miner.sln 941B
.vs
ProjectSettings.json 35B
phases-miner
v16
.suo 50KB
slnx.sqlite 88KB
VSWorkspaceState.json 73B
phases-miner.pyproj 3KB
Evaluator.py 5KB
TestClassifier.py 183B
MakeList.py 954B
.gitignore 1KB
README.md 905B
result
sample.csv 19KB
words1.csv 4.71MB
test.csv 3KB
共 39 条
- 1
资源评论
yanglamei1962
- 粉丝: 1855
- 资源: 336
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功