## 词频统计
### 开发环境
- Anaconda3.6.3 + Pycharm2017.3.2
- collections json re sklearn安装升级至高版本 conda update --all
### 代码实现
- data_clean()实现数据清洗并转换成为列表
- create_vocal_list()去除重复单词
- words_frequency() 词频统计
### 一百万条文本数据
单文件大数据量的读取,全部读至内存会引发内存溢出错误,使用
生成器逐行读取文本信息来解决大文件读取出错的问题,至于加速,
多文件的读取可以使用多进程的办法来处理,而大数据单文件可能
会使用Spark,涉及知识盲区,回答可能拿不住要点。
### 训练
使用sklearn包
- 特征抽取
首先将text string逐行读取到内存中,然后进行数据清洗成有效
数据并拼接每一行,去重之后使用词袋模型将数据转换成向量
- 模型选择
选用机器学习方法中的SVM
- 评估
使用3折交叉验证,即共三种排列组合方式进行训练和验证,得到三个结果
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
基于Pytorch框架深度学习相关代码.zip (12个子文件)
Project-master
data.rar 6.18MB
Classify_plants
train_test.py 4KB
load+prediction.py 2KB
model.py 2KB
ReadMe.md 154B
load_pkl_predict.py 2KB
add_hat
camera.py 373B
ReadMe.md 391B
add for hat.py 4KB
words_frequency
data.txt 1KB
ReadMe.md 774B
text_process.py 3KB
共 12 条
- 1
资源评论
博士僧小星
- 粉丝: 1934
- 资源: 5894
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- java将grib2数据转为json格式
- ffmpeg安装软件.rar
- Go语言练习资源 - go-main
- 第十五届蓝桥杯省一代码
- 海信智能电视刷机数据 LED42K330X3D(0000) 生产用软件数据 务必确认机编一致 强制刷机 整机USB升级程序
- shujudaochuceshi
- learn-ruby.zip
- test111111111111111111
- 海信智能电视刷机数据 LED42K326X3D(0011) 生产用软件数据 务必确认机编一致 强制刷机 整机USB升级程序
- 这里有一份针对美国数学建模竞赛(MCM)的案例分析,涵盖了问题描述、建模过程、求解方法、结果分析以及总结反思
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功