### Classify_plants
作物识别与分类(PyTorch)
### add_hat
给人物加上圣诞帽
### words_frequency
词频统计
- 开发环境
- Anaconda3.6.3 + Pycharm2017.3.2
- collections json re sklearn安装升级至高版本 conda update --all
- 代码实现
- data_clean()实现数据清洗并转换成为列表
- create_vocal_list()去除重复单词
- words_frequency() 词频统计
- 一百万条文本数据
单文件大数据量的读取,全部读至内存会引发内存溢出错误,使用
生成器逐行读取文本信息来解决大文件读取出错的问题,至于加速,
多文件的读取可以使用多进程的办法来处理,而大数据单文件可能
会使用Spark,涉及知识盲区,回答可能拿不住要点。
- 训练
使用sklearn包
- 特征抽取
首先将text string逐行读取到内存中,然后进行数据清洗成有效
数据并拼接每一行,去重之后使用词袋模型将数据转换成向量
- 模型选择
选用机器学习方法中的SVM
- 评估
使用3折交叉验证,即共三种排列组合方式进行训练和验证,得到三个结果
没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
收起资源包目录
毕设&课程作业_基于Pytorch框架深度学习相关代码.zip (13个子文件)
Graduation Design
data.rar 6.18MB
Classify_plants
train_test.py 4KB
load+prediction.py 2KB
model.py 2KB
ReadMe.md 154B
load_pkl_predict.py 2KB
add_hat
camera.py 373B
ReadMe.md 391B
add for hat.py 4KB
words_frequency
data.txt 1KB
ReadMe.md 774B
text_process.py 3KB
README.md 1KB
共 13 条
- 1
资源评论
学术菜鸟小晨
- 粉丝: 1w+
- 资源: 4931
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功