使用feapder爬虫框架开发的爬虫示例.zip资源-CSDN文库

共69个文件

py：52个

png：6个

md：5个

版权申诉

python

爬虫

数据收集

33 浏览量 2024-03-02 13:41:17 上传评论收藏 3.03MB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

使用feapder爬虫框架开发的爬虫示例.zip （69个子文件）

SJT-code

lagou-spider

main.py 1KB

items

__init__.py 102B

lagou_job_detail_task_item.py 462B

lagou_job_detail_item.py 473B

lagou_job_list_item.py 513B

spiders

__init__.py 52B

list_spider.py 1KB

detail_spider.py 2KB

setting.py 3KB

maoyan-spider

maoyan.sql 77KB

assets

image-20221203165705901.png 147KB

image-20221203165725007.png 192KB

image-20221203171523466.png 1.83MB

image-20221203171216901.png 486KB

16324776338950.jpg 585KB

fuck_captcha

fuck_captcha_service.py 4KB

main.py 4KB

utils

track.py 3KB

slider.py 12KB

items

maoyan_hot_movie_list_task_item.py 527B

maoyan_film_detail_task_item.py 620B

__init__.py 252B

maoyan_film_detail_snapshot_task_item.py 676B

maoyan_film_detail_item.py 2KB

maoyan_hot_movie_list_item.py 767B

maoyan_city_item.py 388B

maoyan_cinema_list_item.py 512B

spiders

hot_films_spider.py 4KB

__init__.py 116B

film_detail_spider.py 6KB

film_detail_snapshot_spider.py 3KB

city_spider.py 1011B

images

bg_3d223e02a51e5259c58e9dafdea31520.png 22KB

slider_af532b5f6a1d1e3b426e0ba47ad5ed62.png 7KB

setting.py 6KB

requirements.txt 76B

README.md 3KB

test_speed

feapder_speed.py 632B

test_scrapy

scrapy.cfg 265B

test_scrapy

__init__.py 0B

pipelines.py 291B

spiders

__init__.py 161B

baidu.py 369B

add_task.py 305B

items.py 279B

settings.py 5KB

middlewares.py 4KB

README.md 1KB

zw-journal-spider

main.py 1KB

items

__init__.py 42B

zx_journal_detail_item.py 563B

spiders

__init__.py 34B

journal_spider.py 2KB

setting.py 3KB

README.md 1KB

baidu-spider

main.py 737B

items

__init__.py 60B

baidu_list_item.py 380B

baidu_detail_item.py 385B

spiders

__init__.py 44B

baidu_spider.py 2KB

baidu_spider2.py 2KB

setting.py 5KB

CHECK_DATA.md 2KB

README.md 81B

requirements.txt 29B

.gitignore 148B

test-session

session_by_feapder.py 1KB

session_by_requests.py 529B

# 猫眼爬虫文档 ## 需求 1. 采集各个城市所有热映电影 ![image-20221203171523466](assets/image-20221203171523466.png) 2. 采集电影详情 1. 电影院信息 ![image-20221203165725007](assets/image-20221203165725007.png) 2. 场次信息 ![image-20221203165705901](assets/image-20221203165705901.png) 3. 电影详情 ![image-20221203171216901](assets/image-20221203171216901.png) 3. 采集开播前五分钟的客座率 ![image-20221203171216901](assets/image-20221203171216901.png) ## 调研滑块： https://verify.maoyan.com/verify?requestCode=f4ef8ec12328bebe8ac87f36a572c8f2qybqy&redirectURL=https%3A%2F%2Fmaoyan.com%2Fcinema%2F15082%3FmovieId%3D1337700%26poi%3D97314976 破解滑块可解封ip，爬虫无需携带cookie ## 数据库设计 1. maoyan_cinema_list: 影院列表 2. maoyan_city: 城市列表 3. maoyan_film_detail: 电影详情 4. maoyan_film_detail_batch_record：电影详情采集记录 5. maoyan_film_detail_snapshot_task：电影开播前5分钟采集任务 6. maoyan_film_detail_task：电影详情采集任务 7. maoyan_hot_movie_list：热门电影列表 8. maoyan_hot_movie_list_task：热门电影任务 ## 爬虫逻辑 1. 读取 maoyan_hot_movie_list_task 任务表，采集热门电影（maoyan_hot_movie_list），同时生产电影详情采集任务（maoyan_film_detail_task）；采集频率：每天一次；城市在任务表中配置 # 下发任务给爬虫 python main.py --crawl_hot_films 1 # 采集 python main.py --crawl_hot_films 2 2. 读取 maoyan_film_detail_task 采集电影详情（maoyan_film_detail），同时生产电影开播前5分钟采集任务（maoyan_film_detail_snapshot_task）；采集频率：只采一次；品牌可在setting中的BRAND_IDS指定 # 下发任务给爬虫 python main.py --crawl_film_detail 1 # 采集 python main.py --crawl_film_detail 2 3. 启动个常驻的爬虫，做开播前五分钟的任务，采集电影详情，更新详情表；采集频率，开播前5分钟采集一次 # 下发任务给爬虫 python main.py --crawl_film_detail_snapshot 1 # 采集 python main.py --crawl_film_detail_snapshot 2 4. 启动滑块破解服务，解封被封掉的ip python main.py --fuck_captcha 5. 城市id采集（采集一次即可，作为 maoyan_hot_movie_list_task 里的种子任务） python main.py --crawl_city # 部署 1. 安装python3.7、mysql、redis 2. 安装依赖包 pip3 install -r requirements.txt 3. 修改配置文件 setting.py，配置mysql及redis 4. 使用maoyan.sql 创建表 5. 按照上面的爬虫逻辑，启动爬虫可以使用feaplat部署： ![](assets/16324776338950.jpg) feaplat文档地址：https://boris-code.gitee.io/feapder/#/feapder_platform/%E7%88%AC%E8%99%AB%E7%AE%A1%E7%90%86%E7%B3%BB%E7%BB%9F

评论收藏

内容反馈

版权申诉