没有合适的资源?快使用搜索试试~ 我知道了~
资源推荐
资源详情
资源评论
络爬
速
多线程
threading
多进程
fork
multiprocessing
Process
Pipe
Queue
Lock
Pool
subprocess
异步
asyncio
aiohttp
GRequests
Twisted
pyppetter
tornado
pyspider
Scrapy
分布式
Celery
基于分布式消息传递的异步任务队
huey
型多线程任务队
rq
基于Redis的任务队
RabbitMQ
灵活可靠的消息队
Kafka
分布式、可分区、可复制的消息系统
Scrapy
Scrapy-Redis
基于Scrapy的分布式爬实现
Scrapy-Cluster
Scrapy分布式框架 基于Redis
Kafka
Scrapinghub
Scrapy开发者提供的服务
Scrapy-Redis-BloomFilter
Scrapy-Redis对接布过滤
pyspider
RabbitMQ
Redis
Cola
分布式爬框架
再新
部署
Docker
Swarm
Kuberneters
歌 推荐
Shipyard
Scrapyd
Scrapyd
Scrapyd-Client
Scrapyd-API
Gerapy
SpiderKeeper
爬
站
按渲染式
服务端渲染
基础库
urllib
原底层库
urllib3
相urllib增加特性
httplib2
基础请求库
pycurl
libcurl的Python实现
hyper
持HTTP2新特性
封装库
requests
基于urllib3 简单
grab
基于urlllib3及PyQuery封装
MechanicalSoup
基于requests和BeautifulSoup封装
客户端渲染
寻找Ajax接
Fiddler/Charles
抓包监听接
Chrome/Firefox Devtools
浏览直接观察
模拟浏览
Selenium
模拟驱动浏览执
Splinter
依赖于Selenium、Flask
Spynner/Ghost.py
依赖于PyQt
PhantomJS
界浏览,已停开发
pyppeteer
持异步,界,需驱动
Splash
Scrapy Splash常对接
模拟JavaScript
PyExecJS
后台使多个JS引擎
js2py
将JS代码转Python
Selenium Script
Selenium来模拟
按同步异步
同步
requests
阻塞式
selenium
等等
异步
基础库
asyncio
异步IO协程
gevent
基于greenlet协程
Tornado
络框架 异步请求库
pulsar/greenlet/Twisted
基于事件驱动
pyppetter
异步加渲染
封装库
GRequests
基于gevent+requests
Scrapy
基于Twisted
PySpider
基于Tornado
requests-html
requests作者新作,基于requests
pyppetter
App
普通接
mitmproxy
Charles
Fiddler
Wireshark
anyproxy
加密参数接
Fiddler对接C#脚本实时处
mitmdump对接Python脚本实时处
反编译找出加密算法
HTTP请求接
mitmdump抓TCP
WiresharkTCP抓包,常TLS报
加密内容接
Appium模拟
反编译
加固后的脱壳
析
解析
通
正则表达式
HTML/XML
lxml
持XPath
cssselect
基于CSS选择
pyquery
基于CSS选择 语法类似jQuery
BeautifulSoup
HTML/XML解析
Scrapy Selector
Scrapy内置解析 持XPath、
CSS选择、正则表达式
html5lib
规范标准解析库
xml2dict
将XML转为字典
goose
HTML解析
newspaper
智能解析内容
readability
智能解析内容
scrapely
训练解析并识别
untangle
将XML转化为Python对象
视频
you-get
下载Youteube
moviepy
视频处
pydub
频处
RSS
feedparser
RSS Feed解析
PDF
pdfminer
PDF解析具
OCRmyPDF
PDF OCR
yaml
PyYaml
yaml解析具
清洗
phonenumbers
电话号码解析
xpinyin
汉字转拼
Levenshtein
计算字符相似度、编辑距离等
nameparser
解析名
jieba
中分词具
SnowNLP
基础NLP处库
gensim
训练词向
numpy、pandas
统计和分析
NLPIR
中分词系统
NLTK
NLP处具
LTP
哈NLP处具
THULAC
清华中词法分析具
存
件
纯本
Python件读写
csv
csv
csv库
pandas
读取和保存csv
xls
xlwt/xlrd
Excel读写库
pdf
pdfminer
从PDF中提取信息
pypdf2
分隔、合并转换PDF具
json
json
Json读写库 原始带
markdown
python-markrdown
Python实现的Markdown
mistune
速度快、功能全的Markdown纯
Python解析
markrdown2
markdown解析
xml
dict2xml
将字典转为XML
图
视频
频
数据库
关系型数据库
mysql
pymysql
MySQL存储
postgresql
psycopy2
PostGreSQL存储
oracle
cxOracle
Oracle存储
sql server
pymssql
SQL Server存储
access
pyodbc
Access连接
sybase
Sybase
Sybase连接
关系型数据库
基于存储
Apache HBase
Thrift
Cassandra
Hypertable
键值对存储
Redis
redis-py
Redis连接
Voldemort
Riak
Dynamo
档存储
MongoDB
PyMongo
MongoDB连接
CouchDB
DocumentDB
图数据库
Neo4j
py2neo
Neo4j连接
GraphX
搜索引擎
Solr
ElasticSearch
云存储
七云存储
qiniu
七SDK
拍云存储
upyun
拍云SDK
腾讯云COS
cos-python-sdk
COS SDK
阿云OSS
aliyun-oss-python-sdk
OSS SDK
Azure Storage
azure-storage
Azure Storage SDK
Google Cloud Storage
google-cloud-storage
Google Cloud Storage SDK
Amazon S3
Boto
AWS SDK
反
User-Agent
设置User-Agent
随机User-Agent
封IP
尝试机站点
机站点封IP相对较弱 优先考虑
延时请求
等待秒之后请求或者降速
代
免费代
可率极低,如
付费代
讯代、阿布云、芝麻等
代池
维护免费或付费代池定时检测筛选
Tor代
暗代 速度慢
ADSL
代数多 稳定性
云、极络
Socks
SS代
PySocks
验证码
尝试机站点
机站点验证码相对较弱或验证
优先考虑
图形验证码
OCR
识别率极低
打码平台
同平台速度同
超级鹰、云打码、打码兔
深度学习训练
成本较 适范围
OpenCV、SimpleCV
算术验证码
打码平台
OCR
滑动验证码
模拟拖动
Selenium等
破解加密算法
分析接和JS
KNN、SVM字符识别
深度学习训练
标注缺、识别缺
点触验证码
OCR+图像匹配
如12306
打码平台
超级鹰
特殊验证码
倒字
深度学习训练
打码平台
滑动转圈
打码平台
机验证码
本机
验证
专业设备
本机
平台提供机号接发服务
码
速码
爱码族
微信扫码
扫码
爬获取维码并打开简化扫码流程
对接打码平台
其他级
脸验证
操作 维护Cookies池
封账号
尝试检测登录是否可
如可则证明封IP 直接放弃登录 切
换代
换账号使
使备账号
Cookies池维护
购买账号,定期破解验证码、模
拟登录,保证Cookies可
特殊
本图代替
OCR识别或写规则替换
本写到CSS内部
写规则替换或动解析CSS构造规则
插额外HTML扰
注意辨识
资源评论
- m0_464065762023-06-21大哥 有xmind版本吗
longtianqing1984
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功