#### 接口现在返回的单车id都是6666...
#### 360验证码平台被封,注册机暂时也不能用了。
ofo共享单车地图爬虫
====================
```
感谢您的支持
朋友要做城市数据的一些研究,拜托我写ofo地图的小爬虫
最初的看到了derekhe大神写的单车地图,觉得非常的优秀。
但是单车地图由于官方不断封杀爬虫的行为,被迫关闭了。
derekhe写的爬虫也没办法使用了,于是参考了derekhe的代码。
对现在ofo的api进行了分析,甚至还写了个ofo的token注册机,
实现了对ofo附近单车位置的爬取。
如果这个程序帮助到了你,请动动手指,给个Star!
```
## Stargazers over time
[![Stargazers over time](https://starchart.cc/SilverBooker/ofoSpider.svg)](https://starchart.cc/SilverBooker/ofoSpider)
该爬虫为ofo附近单车爬虫
* 新增ofo注册机
* 目前只支持ofo
* 多线程爬取
* 自动去重
* 输出csv文件,存放在db/【日期】/【日期】-【时间】-【品牌】.csv文件内
* gzip压缩存储
# 运行环境
* Python3
* Linux/Mac/Windows
请根据你的需要修改配置文件config.ini,请查看内置说明。
## Linux/Mac
* 下载[最新代码](https://github.com/SilverBooker/ofoSpider/archive/master.zip)并解压
* 修改config.ini确保坐标和区域等参数正确
* 运行:
```
pip3 install -r requirements.txt
python3 run.py
```
## Windows
* 下载[最新代码](https://github.com/SilverBooker/ofoSpider/archive/master.zip)并解压
* 安装好python3.5.3
* 在cmd中执行pip install -r requirements.txt
* 修改config.ini确保坐标和区域等参数正确
* 在cmd执行python run.py
# 输出格式
输出格式:CSV
每行格式:时间戳,单车编号,纬度,经度
# 关于token
```
很多人来问我token的取法,问得人多了,我就认识到了写好文档的重要性
token是发出获取附近单车请求的必要字段,保存在ofo账号登录后cookie,
具体获取方法如下所示
```
* 使用chrome浏览器访问https://common.ofo.so/newdist/?Login&~next=%22%3FJourney%22
* 输入你的账号验证码成功登陆后(强烈建议使用没有押金的小号,被封后果自负)
* 点击地址栏左边“安全”查看当前网站cookie信息
* 然后我们就可以在ofo.so域下发现我们当前账号的token
![图1](/image/1.png)
![图2](/image/2.png)
# 关于批量获取token——ofo注册机
```
这个注册机写的不是很好,毕竟用到了个人不喜欢的selenium,
打码,接码,记录token能够全部自动化,
日后可能会再修改。
```
* 确保你安装了chrome浏览器,之后打开设置->关于chrome查看chrome的版本
* 访问http://blog.csdn.net/huilan_same/article/details/51896672 查看版本对应的chromedriver
* 访问http://chromedriver.storage.googleapis.com/index.html 下载对应的chromedriver
* 修改ofoRegister/login.py下start()函数中chromedriver你所放置的路径
* 访问http://www.360yzm.com/ 360验证码平台注册账号,进行充值(1个账号1毛钱),并在login.py对应的位置填入你的账号密码
* 访问http://www.ruokuai.com/ 若快打码平台注册账号,进行充值(识别一条验证码好像是一分钱),并在login.py对应的位置填入账号密码
* 按需修改ofoRegister/login.py下start()函数中for循环的次数,每次循环生成一个账号
* 最后,在ofoRegister目录下执行python login.py(提示缺少哪个包就用pip安装哪个包)
* 最后就会在ofoRegister目录下生成一个写有token的txt文件
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
ofo共享单车爬虫.zip (15个子文件)
SJT-code
.gitattributes 65B
image
1.png 106KB
2.png 133KB
LICENSE 1KB
config.ini 966B
ofoRegister
Api_360Yzm.py 6KB
rk.py 2KB
login.py 8KB
ofoSpider
__init__.py 88B
spider.py 5KB
run.py 71B
requirements.txt 384B
.gitignore 12B
README.md 4KB
db
20171227
20171227-174401-ofo.csv 407KB
共 15 条
- 1
资源评论
JJJ69
- 粉丝: 6246
- 资源: 5776
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功