# 根据关键字爬取数据集
### 1. 环境配置
这个使用的是火狐浏览器,运行会自己打开火狐浏览器,因此需要驱动
```python
# 启动Firefox浏览器
driver = webdriver.Firefox()
```
[geckodriver驱动下载地址](https://github.com/mozilla/geckodriver/releases)
根据系统下载好,放在火狐浏览器安装跟目录,如
*C:\Program Files\Mozilla Firefox\geckodriver.exe*
**并且需要配置环境变量到path**
<hr>
### 2. 代码关键配置项
```python
#输出目录
OUTPUT_DIR = '../../data/raw/'
#关键字数组:将在输出目录内创建以以下关键字们命名的txt文件
SEARCH_KEY_WORDS = ['路飞','娜美', '索隆', '乔巴', '罗宾']
#页数
PAGE_NUM = 12
```
<hr>
### 3. 检索路径
检索的是google图片搜索
```python
def getSearchUrl(keyWord):
if(isEn(keyWord)):
return 'https://www.google.com.hk/search?q=' + keyWord + '&safe=strict&source=lnms&tbm=isch'
else:
return 'https://www.google.com.hk/search?q=' + keyWord + '&safe=strict&hl=zh-CN&source=lnms&tbm=isch'
```
没有合适的资源?快使用搜索试试~ 我知道了~
基于CNN的海贼王人物图像多分类,包含数据集爬虫,数据集处理,模型保存,图表输出,批量测试等,通用模型模板.zip
共25个文件
png:12个
md:9个
py:4个
需积分: 5 0 下载量 59 浏览量
2024-04-15
00:15:51
上传
评论
收藏 383KB ZIP 举报
温馨提示
【项目资源】:包含前端、后端、移动开发、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源等各种技术项目的源码。包括C++、Java、python、web、C#、EDA等项目的源码。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。
资源推荐
资源详情
资源评论
收起资源包目录
基于CNN的海贼王人物图像多分类,包含数据集爬虫,数据集处理,模型保存,图表输出,批量测试等,通用模型模板.zip (25个子文件)
newPic
data
train-validation-set
README.md 53B
test-set
500.png 39KB
400.png 27KB
100.png 29KB
123.png 25KB
300.png 21KB
401.png 34KB
199.png 37KB
399.png 18KB
200.png 47KB
206.png 17KB
README.md 86B
501.png 49KB
raw
README.md 15B
model
README.md 46B
README.md 549B
code
data-processing
batch_rename.py 415B
README.md 378B
cnn
achieve.py 6KB
README.md 761B
data-crawling
crawler.py 3KB
README.md 1KB
batch-test
batch_test.py 2KB
README.md 677B
result
curve.png 38KB
共 25 条
- 1
资源评论
白话Learning
- 粉丝: 4602
- 资源: 2986
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功