【python 爬虫】如何建立代理 ip 池?
初次学习 python 爬虫的朋友在频繁访问被爬取页面网站时都会被拦截,也就是
限制 ip。这里太阳代理小编教教大家建立代理 ip 池。
#!/usr/bin/env python3
# -*- coding: utf-8 -*-
import requests,threading,datetime
from bs4 import BeautifulSoup
import random
"""
1、抓取西刺代理网站的代理 ip
2、并根据指定的目标 url,对抓取到 ip 的有效性进行验证
3、最后存到指定的 path
"""
# ------------------------------------------------------文档处理
--------------------------
# 写入文档
def write(path,text):
with open(path,'a', encoding='utf-8') as f:
f.writelines(text)
f.write('')
# 清空文档
def truncatefile(path):
with open(path, 'w', encoding='utf-8') as f:
f.truncate()
# 读取文档
def read(path):
with open(path, 'r', encoding='utf-8') as f:
txt = []
for s in f.readlines():