## 运行需求
python3
**第三方包**
```bash
pip install requests
pip install lxml
pip install flask
```
## 页面功能
- `http://127.0.0.1:5000/` 首页
- `http://127.0.0.1:5000/search/已发布` 已发布
- `http://127.0.0.1:5000/search/已下载` 已下载
- `http://127.0.0.1:5000/search/有资源` 有资源
### 列表页
- `http://127.0.0.1:5000/group` 番号列表
- `http://127.0.0.1:5000/actresses` 演员列表
- `http://127.0.0.1:5000/genre` 类别列表
- `http://127.0.0.1:5000/studio` 制作商列表
- `http://127.0.0.1:5000/label` 发行商列表
- `http://127.0.0.1:5000/series` 系列列表
### 明细页
- `http://127.0.0.1:5000/movie/e3dedf889e44cee8` 影片明细
- `http://127.0.0.1:5000/group/IPX` 番号明细
- `http://127.0.0.1:5000/star/1971f1973cf8172f` 演员明细
- `http://127.0.0.1:5000/genre/dd21aefe7ae3228c` 类别明细
- `http://127.0.0.1:5000/studio/80be243ea6164094` 制作商明细
- `http://127.0.0.1:5000/label/b0b3be30e6bf490f` 发行商明细
- `http://127.0.0.1:5000/series/c28ffa16eae1bf1e` 系列明细
- `http://127.0.0.1:5000/director/bb914a54dc51b21b` 导演明细
### 收藏页
- `http://127.0.0.1:5000/like/group` 收藏番号
- `http://127.0.0.1:5000/like/movie` 收藏影片
- `http://127.0.0.1:5000/like/studio` 收藏制作商
- `http://127.0.0.1:5000/like/label` 收藏发行商
- `http://127.0.0.1:5000/like/series` 收藏系列
### 分析页
- `http://127.0.0.1:5000/analyse/group/IPX` 分析番号
- `http://127.0.0.1:5000/analyse/star/1971f1973cf8172f` 分析演员
- `http://127.0.0.1:5000/analyse/genre/dd21aefe7ae3228c` 分析类别
- `http://127.0.0.1:5000/analyse/studio/80be243ea6164094` 分析制作商
- `http://127.0.0.1:5000/analyse/label/b0b3be30e6bf490f` 分析发行商
- `http://127.0.0.1:5000/analyse/director/bb914a54dc51b21b` 分析导演
### 功能页
- `http://127.0.0.1:5000/spider` 爬虫,输入链接,抓取链接内所有影片
- `http://127.0.0.1:5000/scandisk` 扫描硬盘,扫描本地硬盘,识别番号文件名
- `http://127.0.0.1:5000/config` 修改配置
## 注意事项
1. 右上角的语言切换是用来切换目标站的语言的,会影响演员名/类目名,仿站没有做多语言
2. avmoo最多只支持抓取到100页,超过100页无法抓取
3. 图片卡的时候尝试去`config`页面切换`图片cdn源`
4. 右上角的`链接`按钮指的是avmoo源站对应的链接
5. 爬虫页可以查看最近写入库中的影片,也可以操作爬虫
6. 磁力搜索网站可以自己在配置添加,会在末尾拼av_id
## 打开方法
命令行运行`python run.py`启动本地web(首次打开会跳转到安装页面)
指定配置文件运行`python run.py config_main.db`
默认地址为`http://127.0.0.1:5000`,端口可通过配置修改
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的工作流程包括以下几个关键步骤: URL收集: 爬虫从一个或多个初始URL开始,递归或迭代地发现新的URL,构建一个URL队列。这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对获取的HTML进行解析,提取有用的信息。常用的解析工具有正则表达式、XPath、Beautiful Soup等。这些工具帮助爬虫定位和提取目标数据,如文本、图片、链接等。 数据存储: 爬虫将提取的数据存储到数据库、文件或其他存储介质中,以备后续分析或展示。常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-Agent。 反爬虫应对: 由于爬虫的存在,一些网站采取了反爬虫措施,如验证码、IP封锁等。爬虫工程师需要设计相应的策略来应对这些挑战。 爬虫在各个领域都有广泛的应用,包括搜索引擎索引、数据挖掘、价格监测、新闻聚合等。然而,使用爬虫需要遵守法律和伦理规范,尊重网站的使用政策,并确保对被访问网站的服务器负责。
资源推荐
资源详情
资源评论
收起资源包目录
avmoo.com爬虫.zip (24个子文件)
SJT-code
config.ini.default 1KB
templates
main.html 10KB
analyse.html 3KB
install.html 1KB
genre.html 713B
actresses.html 2KB
index.html 8KB
movie.html 8KB
scandisk.html 6KB
group.html 1KB
config.html 12KB
spider.html 5KB
run.py 379B
common.py 12KB
.gitignore 73B
static
app.min.js 335KB
glyphicons-halflings-regular.woff2 18KB
icon.png 1KB
app.min.css 135KB
spider.py 20KB
README.md 3KB
define.py 5KB
aqd_spider.py 8KB
website.py 38KB
共 24 条
- 1
资源评论
JJJ69
- 粉丝: 6222
- 资源: 5780
下载权益
C知道特权
VIP文章
课程特权
开通VIP
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功