各种python爬虫案例.zip资源-CSDN文库

共107个文件

py：36个

pyc：23个

xml：20个

python爬虫

5星 · 超过95%的资源需积分: 11 104 浏览量 2021-03-05 17:15:37 上传评论 2 收藏 20.4MB ZIP 举报

资源详情

资源评论

收起资源包目录

各种python爬虫案例.zip （107个子文件）

scrapy.cfg 273B

scrapy.cfg 265B

scrapy.cfg 263B

scrapy.cfg 261B

学习强国.doc 490KB

musicpachong.exe 9.25MB

python spider.iml 402B

hubSpider.iml 402B

bilibiliSP.iml 284B

audioBook.iml 284B

musicpachong.exe.manifest 1019B

README.md 4KB

README.md 3KB

网易云音乐网页版歌曲下载爬虫.md 2KB

README.md 1KB

README.md 835B

学习强国答案.md 728B

PKG-00.pkg 8.99MB

zhihu_answer.py 9KB

downloader.py 8KB

ThreadPool.py 4KB

middlewares.py 4KB

settings.py 3KB

downloader.py 3KB

musicpachong.py 2KB

beautyImg.py 1KB

bilibili.py 1KB

search_parser.py 1KB

SP_download.py 631B

pipelines.py 545B

pipelines.py 465B

xuexi.py 417B

items.py 367B

pipelines.py 364B

pipelines.py 363B

items.py 293B

items.py 282B

items.py 265B

__init__.py 161B

__init__.py 0B

downloader.cpython-37.pyc 9KB

ThreadPool.cpython-37.pyc 3KB

musicpachong.cpython-37.pyc 3KB

beautyImg.cpython-37.pyc 2KB

search_parser.cpython-37.pyc 1KB

bilibili.cpython-37.pyc 1KB

pipelines.cpython-37.pyc 850B

xuexi.cpython-37.pyc 763B

settings.cpython-37.pyc 709B

pipelines.cpython-37.pyc 669B

settings.cpython-37.pyc 633B

settings.cpython-37.pyc 528B

settings.cpython-37.pyc 525B

items.cpython-37.pyc 413B

items.cpython-37.pyc 389B

__init__.cpython-37.pyc 186B

__init__.cpython-37.pyc 183B

__init__.cpython-37.pyc 178B

__init__.cpython-37.pyc 175B

__init__.cpython-37.pyc 155B

__init__.cpython-37.pyc 153B

__init__.cpython-37.pyc 147B

__init__.cpython-37.pyc 145B

PYZ-00.pyz 1.87MB

musicpachong.spec 871B

bilbili_Output.txt 10KB

warn-musicpachong.txt 5KB

使用方法.txt 1KB

cookies.txt 362B

requirements.txt 78B

附上此爬虫爬取的网址.txt 29B

workspace.xml 15KB

workspace.xml 8KB

workspace.xml 5KB

workspace.xml 3KB

misc.xml 300B

misc.xml 288B

modules.xml 278B

modules.xml 272B

modules.xml 270B

vcs.xml 183B

共 107 条

### xvideos视频爬虫曾经有一份爬取pornhub的爬虫摆在我面前，但我没有珍惜，等到pornhub大清洗过后我才追悔莫及，尘世间最痛苦的事莫过于此。如果上天可以给我再来一次的机会，我一定全爬下来放到数据库中。本来想爬pornhub的，但是pornhub这不经历了一次灾难后，把好多视频都删了而且现存的视频好多都需要付费下载。所以这次将矛头对准了另一家free的[网站](https://www.xvideos.com)。 **功能** 通过用户给出的关键词，爬取该关键词搜索到的所有的视频，并将这些视频以.mp4的的形式保存在本地电脑上（未来打算接入mongodb数据库，存在数据库中，以免未来再发生pornhub事件） **环境** 1. windows10 2. python3.7 **使用方法** 1. 首先需要一个可以带动整个电脑科学上网的vpn或机场**这个大家自己找一下哈** 2. 需要使用到的库已经放在requirements.txt，使用pip安装的可以使用指令`pip install -r requirements.txt`。如果国内安装第三方库比较慢，可以使用以下指令进行清华源加速`pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple/` 3. 具备了以上两个条件之后，我们就可以进入`search_parser.py`文件中将`key`修改成你要搜索的内容即可，然后运行`search_parser.py`即可，在运行之后应该会在video目录下得到一个`video_url.txt`文件，里面就是搜索到的所有的与关键词相关的页面了。 4. 之后，我们只需要直接进入`downloader.py`文件，运行即可。此时会在控制台让你分别输入，邮箱和密码（没有xvideos网站账号的去网站注册一个就OK，免费的）。输入邮箱和密码后，首先会解析刚刚获取到的所有的页面，而后会逐个下载，下载的mp4文件会存在video目录下。 > **注意** 在spiders目录下会有一个`cookies.txt`文件，其中保存着你登录后留下的cookies，是下载视频的必须品，所以不要轻易删掉该文件。 **技术栈** 1. requests 2. json 3. parsel（xpath筛选器） 4. os 5. cookiejar（模拟登陆保存cookies） 6. scrapy（自动迭代）~~上次自己写了一个递归迭代感觉太麻烦了，还是直接用现成的香~~ 7. time 8. contextlib 9. queue 10. threading **进步（相较于之前）** 1. 实现了模拟登陆 2. 完成了scrapy框架和别的库的交叉使用 3. 实现了视频的保存（之前B站视频时通过第三方库下载的） #### 更新日志 - 2021.1.8 第一次上传，更新了基本内容，未实现多线程下载以及接入mongodb。 - 2021.1.11 实现了多线程下载，多线程对页面进行解析，同时优化了scrapy框架在获取相关页面的方式，大幅提升下载速度、页面解析速度，以及关键字搜索速度。同时出现了一个致命性的错误——xvideos在登录上使用了Google的recaptcha验证，而这个情况只有在Google的检测检测阈值到达一定程度后才会触发。所以对于刚使用的同学依旧可以使用代码中的模拟登陆实现，自动获取cookie的操作（只需要把`downloader.py`中的151~154行的注释去掉即可使用）。但是一旦被检测出来后，就需要使用者自己手动登陆，并使用抓包工具获取到cookie值放到`downloader.py`中的16行后面即可，同时一定要把自动登录那几行代码注释掉，要不会读取到无法使用的cookie。除此之外还有一个小问题就是xvideos有一定的下载数量限制，每个用户每天只能下载一定数量的视频，如果超了就会获取不到下载链接，所以还需要多准备几个账号才行。未来如果能找到解决recaptcha验证的方法，我会加入账号自动切换的功能的。仍未实现接入mongodb。

评论收藏

内容反馈

普通网友

2023-07-25

：里面的案例设计简洁明了，让初学者也能轻松上手，非常适合新手入门练习。

各种python爬虫案例.zip

评论5

最新资源

各种python爬虫案例.zip

评论5

最新资源

相关推荐

python爬虫案例.zip

python爬虫练习.zip

python爬虫基础和python爬虫案例资料合集.zip

爬虫python入门用python的scrapy框架爬取网站的代理ip，是很好的爬虫案例.zip

python爬虫基础.zip

Python爬虫案例.zip

Python爬虫系列.zip

python爬虫实例.zip

python爬虫课件+代码.zip

python爬虫教程与常见网站爬虫案例.zip

python爬虫资料.zip

python spider python 图片 爬虫.zip

python爬虫练习案例.zip

Python网络爬虫.zip

Python 图片爬虫.zip

Python网络爬虫集合.zip

廖雪峰python教程爬虫.zip

python爬虫.zip

上海一网通办 社保插件：FileOperatorWSInstaller.zip

物联网在医疗健康中的应用-第1篇概述.pptx

华为ensp模拟器安装包

天邑su计算工具-魔尊版

VxTerm 世界范围内第一个可以做到全自动化运维的强大的Telnet、SSH、Serial、MUD远程连接远程终端运维工具

SecureCRT 9.2.3 Build 2829(Windows X64) 官方原版 + ZWT官方

京东云一代爱kuai固件-m50固件

小旋风蜘蛛池，小旋风蜘蛛池程序pro2.8版

MIB Browser，一款比SNMPutil和SNMPutilg更好用的网络管理工具

tampermonkey-backup-chrome-2021-11-27T13-18-01-624Z.zip

python spider python 图片爬虫.zip

上海一网通办社保插件：FileOperatorWSInstaller.zip