# PassCaptcha
## 推荐使用导入包的形式调用此项目
## 使用DDDDOCR识别文字坐标(这玩意真牛逼)
```angular2html
支持注入方式及返回callback方式通过验证码
当前支持腾讯点选验证, 阿里滑块验证, 腾讯滑动拼图(实验性功能)
```
## 更新
| 版本号 | 更新时间 | 更新内容 |
|-------|------------|---------------------|
| 0.0.1 | 2022.09.07 | 项目创建,初始支持腾讯点选 |
| 0.0.2 | 2022.09.08 | 新增阿里滑块验证 |
| 0.0.3 | 2022.09.09 | 新增腾讯滑动拼图(实验性功能) |
| 0.0.4 | 2022.09.14 | 新增适配腾讯滑动拼图V2(实验性功能) |
## 部署
### 0x01 准备 | 难度 1-5
```angular2html
Chrome浏览器(Linux也可正常部署,有疑问联系) | Windows难度: 1 Linux难度: 2
Chrome driver(百度一下,你就知道。注!需对应版本) | 难度: 1
将下载的chromedriver放在你项目的根路径
```
### 0x02 安装
```shell
git clone https://github.com/rrrrat/PassCaptcha.git
pip3 install -r requirements.txt
```
### 0x03 使用
```python
from PassCaptcha import AllPassCaptcha
# 1.注入方式通过验证
# browser为你的webdriver.Chrome对象, 函数将返回你的浏览器对象
browser = AllPassCaptcha.TX().click_captcha_injection(browser)
browser = AllPassCaptcha.TX().slide_captcha_injection(browser)
browser = AllPassCaptcha.ALI().slide_captcha_callback(browser)
# return <object browser>
# 2.callback方式通过验证
# 此处captcha_app_id为对方网站腾讯验证码的APPID(访问网站查看网络内https://t.captcha.qq.com/cap_union_prehandle的aid值)下面会详细说明
randstr, ticket = AllPassCaptcha.TX().click_captcha_callback(captcha_app_id)
randstr, ticket = AllPassCaptcha.TX().slide_captcha_callback(captcha_app_id)
# 此处captcha_app_id, captcha_scene为对方网站阿里滑块验证的captcha_app_id和captcha_scene(访问网站查看网络内https://cf.aliyun.com/nocaptcha/initialize.jsonp的a和scene值)
# 与腾讯查看方式一样
session_id, sig, token = AllPassCaptcha.ALI().slide_captcha_callback(captcha_app_id, captcha_scene)
# return randstr, ticket
```
## 演示
### 1.注入方式
![](temp/injection_1.jpg)
### 2.callback方式
![](temp/callback_1.jpg)
#### 返回randstr, ticket
![](temp/callback_2.jpg)
## 获取captcha_app_id
![](temp/callback_3.jpg)
```angular2html
aid: 191805058
此处191805058为网站captcha_app_id
```
## 关于操作过于频繁
![](temp/err_1.jpg)
```angular2html
若网站风控等级过高会出现此类错误,可以尝试自己训练模型提高识别率解决此类问题。
这里大量征集训练数据。
```
![](temp/err_2.jpg)
## 关于后期更新
```angular2html
当前阿里滑块使用一镜到底方式,后期将优化此步骤,提高验证成功率。
当前无优化思路,欢迎大家给出意见。
```
## 须知
### 不要用191805058测试!!!不要用191805058测试!!!不要用191805058测试!!!
### 该程序仅用于学习用途,禁止用作非法用途!
### 个人维护,不定期更新
### 该程序造成的任何法律责任,财产损失或者人身伤害等问题,本人概不负责!
### 企鹅: 321878646
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
帮助爬虫通过点选验证及滑动验证, 验证码识别.zip (26个子文件)
SJT-code
__init__.py 0B
handle
__init__.py 0B
selenium_options.py 326B
tx_captcha.py 3KB
ali_captcha.py 2KB
.gitattributes 92B
template
stealth.min.js 176KB
tx_slide_target.html 256B
ali_slide_captcha.html 851B
tx_captcha.html 3KB
operation
__init__.py 0B
tx.py 8KB
LICENSE 11KB
AllPassCaptcha.py 239B
utils
slide_image_handle.py 469B
click_image_ocr.py 2KB
temp
callback_3.jpg 246KB
err_1.jpg 137KB
err_2.jpg 124KB
callback_1.jpg 181KB
callback_2.jpg 27KB
injection_1.jpg 381KB
base
__init__.py 0B
base.py 1KB
requirements.txt 32B
README.md 3KB
共 26 条
- 1
资源评论
JJJ69
- 粉丝: 6127
- 资源: 5674
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功