爬虫IP代理池
=======
[![Build Status](https://travis-ci.org/jhao104/proxy_pool.svg?branch=master)](https://travis-ci.org/jhao104/proxy_pool)
[![](https://img.shields.io/badge/Powered%20by-@j_hao104-green.svg)](http://www.spiderpy.cn/blog/)
[![Requirements Status](https://requires.io/github/jhao104/proxy_pool/requirements.svg?branch=master)](https://requires.io/github/jhao104/proxy_pool/requirements/?branch=master)
[![Packagist](https://img.shields.io/packagist/l/doctrine/orm.svg)](https://github.com/jhao104/proxy_pool/blob/master/LICENSE)
[![GitHub contributors](https://img.shields.io/github/contributors/jhao104/proxy_pool.svg)](https://github.com/jhao104/proxy_pool/graphs/contributors)
[![](https://img.shields.io/badge/language-Python-green.svg)](https://github.com/jhao104/proxy_pool)
______ ______ _
| ___ \_ | ___ \ | |
| |_/ / \__ __ __ _ __ _ | |_/ /___ ___ | |
| __/| _// _ \ \ \/ /| | | || __// _ \ / _ \ | |
| | | | | (_) | > < \ |_| || | | (_) | (_) || |___
\_| |_| \___/ /_/\_\ \__ |\_| \___/ \___/ \_____\
__ / /
/___ /
##### [介绍文档](https://github.com/jhao104/proxy_pool/blob/master/doc/introduce.md)
* 支持版本: ![](https://img.shields.io/badge/Python-2.x-green.svg) ![](https://img.shields.io/badge/Python-3.x-blue.svg)
* 测试地址: http://123.207.35.36:5010 (单机勿压。感谢)
### 下载安装
* 下载源码:
```shell
git clone git@github.com:jhao104/proxy_pool.git
或者直接到https://github.com/jhao104/proxy_pool 下载zip文件
```
* 安装依赖:
```shell
pip install -r requirements.txt
```
* 配置Config/setting.py:
```shell
# Config/setting.py 为项目配置文件
# 配置DB
DATABASES = {
"default": {
"TYPE": "SSDB", # 如果使用SSDB或redis数据库,均配置为SSDB
"HOST": "127.0.0.1", # db host
"PORT": 8888, # db port
"NAME": "proxy", # 默认配置
"PASSWORD": "" # db password
}
}
# 配置 ProxyGetter
PROXY_GETTER = [
"freeProxyFirst", # 这里是启用的代理抓取函数名,可在ProxyGetter/getFreeProxy.py 扩展
"freeProxySecond",
....
]
# 配置 API服务
SERVER_API = {
"HOST": "0.0.0.0", # 监听ip, 0.0.0.0 监听所有IP
"PORT": 5010 # 监听端口
}
# 上面配置启动后,代理池访问地址为 http://127.0.0.1:5010
```
* 启动:
```shell
# 如果你的依赖已经安全完成并且具备运行条件,可以直接在Run下运行main.py
# 到Run目录下:
>>>python main.py
# 如果运行成功你应该看到有4个main.py进程
# 你也可以分别运行他们,
# 依次到Api下启动ProxyApi.py,Schedule下启动ProxyRefreshSchedule.py和ProxyValidSchedule.py即可.
```
* 生产环境 Docker/docker-compose
```shell
# Workdir proxy_pool
docker build -t proxy_pool .
pip install docker-compose
docker-compose -f Docker/docker-compose.yml up -d
```
* 开发环境 Docker
```shell
# Workdir proxy_pool
docker build -t proxy_pool .
docker run -it --rm -v $(pwd):/usr/src/app -p 5010:5010 proxy_pool
```
### 使用
启动过几分钟后就能看到抓取到的代理IP,你可以直接到数据库中查看,推荐一个[SSDB可视化工具](https://github.com/jhao104/SSDBAdmin)。
也可以通过api访问http://127.0.0.1:5010 查看。
* Api
| api | method | Description | arg|
| ----| ---- | ---- | ----|
| / | GET | api介绍 | None |
| /get | GET | 随机获取一个代理 | None|
| /get_all | GET | 获取所有代理 |None|
| /get_status | GET | 查看代理数量 |None|
| /delete | GET | 删除代理 |proxy=host:ip|
* 爬虫使用
如果要在爬虫代码中使用的话, 可以将此api封装成函数直接使用,例如:
```python
import requests
def get_proxy():
return requests.get("http://127.0.0.1:5010/get/").content
def delete_proxy(proxy):
requests.get("http://127.0.0.1:5010/delete/?proxy={}".format(proxy))
# your spider code
def getHtml():
# ....
retry_count = 5
proxy = get_proxy()
while retry_count > 0:
try:
html = requests.get('https://www.example.com', proxies={"http": "http://{}".format(proxy)})
# 使用代理访问
return html
except Exception:
retry_count -= 1
# 出错5次, 删除代理池中代理
delete_proxy(proxy)
return None
```
### 扩展代理
项目默认包含几个免费的代理获取方法,但是免费的毕竟质量不好,所以如果直接运行可能拿到的代理质量不理想。所以,提供了代理获取的扩展方法。
添加一个新的代理获取方法如下:
* 1、首先在[GetFreeProxy](https://github.com/jhao104/proxy_pool/blob/b9ccdfaada51b57cfb1bbd0c01d4258971bc8352/ProxyGetter/getFreeProxy.py#L32)类中添加你的获取代理的静态方法,
该方法需要以生成器(yield)形式返回`host:ip`格式的代理,例如:
```python
class GetFreeProxy(object):
# ....
# 你自己的方法
@staticmethod
def freeProxyCustom(): # 命名不和已有重复即可
# 通过某网站或者某接口或某数据库获取代理 任意你喜欢的姿势都行
# 假设你拿到了一个代理列表
proxies = ["139.129.166.68:3128", "139.129.166.61:3128", ...]
for proxy in proxies:
yield proxy
# 确保每个proxy都是 host:ip正确的格式就行
```
* 2、添加好方法后,修改Config/setting.py文件中的`PROXY_GETTER`项:
在`PROXY_GETTER`下添加自定义的方法的名字:
```shell
PROXY_GETTER = [
"freeProxyFirst",
"freeProxySecond",
....
"freeProxyCustom" # # 确保名字和你添加方法名字一致
]
```
`ProxyRefreshSchedule`会每隔一段时间抓取一次代理,下次抓取时会自动识别调用你定义的方法。
### 代理采集
目前实现的采集免费代理网站有(排名不分先后, 下面仅是对其发布的免费代理情况, 付费代理测评可以参考[这里](https://zhuanlan.zhihu.com/p/33576641)):
| 厂商名称 | 状态 | 更新速度 | 可用率 | 是否被墙 | 地址 |
| ----- | ---- | -------- | ------ | --------- | ----- |
| 无忧代理 | 可用 | 几分钟一次 | * | 否 | [地址](http://www.data5u.com/free/index.html) |
| 66代理 | 可用 | 更新很慢 | * | 否 | [地址](http://www.66ip.cn/) |
| 西刺代理 | 可用 | 几分钟一次 | * | 否 | [地址](http://www.xicidaili.com)|
| 全网代理 | 可用 | 几分钟一次 | * | 否 | [地址](http://www.goubanjia.com/)|
| 训代理 | 已关闭免费代理 | * | * | 否 | [地址](http://www.xdaili.cn/)|
| 快代理 | 可用 |几分钟一次| * | 否 | [地址](https://www.kuaidaili.com/)|
| 云代理 | 可用 |几分钟一次| * | 否 | [地址](http://www.ip3366.net/)|
| IP海 | 可用 |几小时一次| * | 否 | [地址](http://www.iphai.com/)|
| 免费IP代理库 | 可用 |快| * | 否 | [地址](http://ip.jiangxianli.com/)|
| 中国IP地址 | 可用 |几分钟一次| * | 是 | [地址](http://cn-proxy.com/)|
| Proxy List | 可用 |几分钟一次| * | 是 | [地址](https://proxy-list.org/chinese/index.php)|
| ProxyList+ | 可用 |几分钟一次| * | 是 | [地址](https://list.proxylistplus.com/Fresh-HTTP-Proxy-List-1)|
如果还有其他好的免费代理网站, 可以在提交在[issues](https://github.com/jhao104/proxy_pool/issues/71), 下次更新时会考虑在项目中支持。
### 问题反馈
任何问题欢迎在[Issues](https://github.com/jhao104/proxy_pool/issues) 中反馈,如果没有账号可以去 我的[博客](http://www
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
基于微博的面向食品安全的舆情话题检测与追踪系统python实现源码(高分).zip个人经导师指导并认可通过的高分毕业设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 基于微博的面向食品安全的舆情话题检测与追踪系统python实现源码(高分).zip个人经导师指导并认可通过的高分毕业设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 基于微博的面向食品安全的舆情话题检测与追踪系统python实现源码(高分).zip个人经导师指导并认可通过的高分毕业设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。 基于微博的面向食品安全的舆情话题检测与追踪系统python实现源码(高分).zip个人经导师指导并认可通过的高分毕业设计项目,评审分98分。主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者,也可作为课程设计、期末大作业。,,。。。。。
资源推荐
资源详情
资源评论
收起资源包目录
基于微博的面向食品安全的舆情话题检测与追踪系统python实现源码(高分).zip (235个子文件)
scrapy.cfg 265B
scrapy.cfg 261B
Dockerfile.develop 809B
Dockerfile 223B
.DS_Store 6KB
.gitignore 28B
.gitignore 19B
5d0996416367791778def83c_graph.html 3.18MB
5d0999506367793258695e7f_graph.html 693KB
5d094b906367790a0c440040_graph.html 612KB
5d0992a16367792ac84c1047_graph.html 308KB
5d09994e6367793258695e57_graph.html 260KB
5d09994d6367793258695e3f_graph.html 219KB
5d094b8d6367790a0c440000_graph.html 158KB
5d094b8e6367790a0c440018_graph.html 153KB
5d0992aa6367792ac84c10b3_graph.html 126KB
5d094b976367790a0c4400a2_graph.html 119KB
5d0999556367793258695ec5_graph.html 101KB
5d094b956367790a0c44007f_graph.html 96KB
5d09994e6367793258695e5a_graph.html 72KB
5d09995a6367793258695f0e_graph.html 60KB
5d0937c86367790bf0b26812_graph.html 60KB
5d0937c86367790bf0b26810_graph.html 55KB
5d094b916367790a0c44004b_graph.html 54KB
5d094b976367790a0c44009b_graph.html 19KB
wordcloud.html 17KB
5d0999546367793258695eac_graph.html 16KB
geo.html 11KB
5d0999556367793258695eb7_graph.html 10KB
map.html 7KB
weibosearch.iml 467B
TDTSystem.iml 317B
Untitled.ipynb 873B
Untitled-checkpoint.ipynb 72B
qwebchannel.js 15KB
LICENSE 1KB
ghostdriver.log 1KB
README.md 9KB
introduce.md 7KB
README.md 3KB
release_notes.md 481B
4132.png 10KB
2314.png 10KB
2431.png 10KB
3241.png 9KB
1423.png 9KB
4123.png 9KB
3214.png 9KB
2341.png 9KB
3142.png 9KB
1324.png 9KB
4231.png 9KB
2413.png 9KB
3412.png 9KB
1234.png 9KB
4321.png 9KB
2143.png 9KB
1432.png 9KB
3124.png 8KB
4213.png 8KB
2134.png 8KB
3421.png 8KB
1243.png 8KB
4312.png 8KB
1342.png 8KB
echarts.py 21KB
spider.py 20KB
ltp.py 16KB
topic_list.py 11KB
getFreeProxy.py 10KB
tdt.py 10KB
topic_warn.py 10KB
my_widget.py 8KB
emotion.py 8KB
city.py 8KB
cookies.py 8KB
topic_detail.py 8KB
weibo.py 7KB
repost.py 5KB
mainwindow.py 5KB
comment.py 5KB
mongo.py 5KB
generator.py 4KB
settings.py 4KB
topic_trade.py 3KB
RedisClient.py 3KB
SsdbClient.py 3KB
pipelines.py 3KB
ProxyManager.py 3KB
ProxyRefreshSchedule.py 3KB
weibo.py 3KB
DbClient.py 3KB
settings.py 3KB
WebRequest.py 3KB
text2vec.py 3KB
utilFunction.py 3KB
LogHandler.py 3KB
scheduler.py 2KB
CheckProxy.py 2KB
MongodbClient.py 2KB
共 235 条
- 1
- 2
- 3
资源评论
程序员张小妍
- 粉丝: 1w+
- 资源: 3080
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功