python爬虫实战练习手册.zip资源-CSDN文库

共65个文件

py：21个

pyc：18个

xml：12个

版权申诉

爬虫

python

数据收集

144 浏览量 2024-03-01 12:56:16 上传评论收藏 47KB ZIP 举报

资源推荐

资源详情

资源评论

收起资源包目录

python爬虫实战练习手册.zip （65个子文件）

SJT-code

anjuke

__init__.py 0B

pipelines.py 286B

settings.pyc 655B

middlewares.pyc 4KB

spiders

__init__.py 161B

__init__.pyc 165B

anjuke_spider.py 2KB

anjuke_spider.pyc 2KB

items.py 567B

__init__.pyc 157B

settings.py 4KB

middlewares.py 3KB

items.pyc 582B

scrapy.cfg 256B

README.md 595B

love_food

.DS_Store 6KB

scrapy.cfg 262B

love_food

__init__.py 0B

.DS_Store 6KB

pipelines.py 951B

settings.pyc 787B

middlewares.pyc 4KB

spiders

__init__.py 161B

foodspider.py 2KB

__init__.pyc 158B

foodspider.pyc 2KB

items.py 326B

__init__.pyc 150B

pipelines.pyc 1KB

settings.py 1KB

middlewares.py 3KB

items.pyc 551B

.idea

love_food.iml 398B

vcs.xml 183B

workspace.xml 22KB

misc.xml 701B

modules.xml 270B

.idea

dianping_data.iml 398B

vcs.xml 180B

workspace.xml 33KB

misc.xml 701B

modules.xml 278B

book_rank

scrapy.cfg 262B

.idea

book_rank.iml 398B

workspace.xml 28KB

misc.xml 701B

modules.xml 270B

encodings.xml 200B

book_rank

__init__.py 0B

pipelines.py 950B

settings.pyc 616B

spiders

__init__.py 161B

bookspider.pyc 2KB

__init__.pyc 171B

bookspider.py 2KB

run.py 80B

items.py 428B

__init__.pyc 163B

settings.py 1015B

items.pyc 629B

issue.txt 52B

img_recognize

captcha-1.jpg 4KB

captcha-2.jpg 1KB

readme.txt 347B

README.md 416B

anjuke_spider 爬取安居客租房链接下所有的租房信息。 1.使用随机ua，保存为csv文件 2.爬取频率过高会被安居客封ip数小时。 ---应对：1）使用代理ip池，但是免费的好多没法用，放弃。 2）调整DOWNLOAD_DELAY时间，左右不大。 3）多个机器，爬取不同页面。 ---选择处理办法：使用Google cache，找到爬取页面对应的cache url即可 ps：不管爬虫选取的是什么网站，爬取网站上的数据只是为了练习python和分析下数据。坚决不对网站进行恶意的请求。

评论收藏

内容反馈

版权申诉