Python爬虫实现百度图片自动下载.zip资源-CSDN文库

共13个文件

jpg：10个

py：1个

md：1个

需积分: 5 51 浏览量 2024-01-12 16:11:24 上传评论收藏 635KB ZIP 举报

在Python编程领域，爬虫是一项重要的技术，常用于自动化数据抓取。本教程将通过"Python爬虫实现百度图片自动下载.zip"这个压缩包文件，详细介绍如何使用Python编写爬虫来从百度图片网站批量下载图片。这个压缩包可能包含一个名为"BaiduImageDownload-master"的文件夹，里面可能有源代码、说明文档或其他辅助资源。我们要理解Python爬虫的基本原理。爬虫是通过模拟浏览器发送HTTP请求到目标网站，接收服务器返回的HTML或其他格式的响应，然后解析这些响应来提取所需数据。在这个案例中，我们需要的数据是百度图片的URL，然后利用这些URL下载图片。 Python中有许多库可以用来实现爬虫，如BeautifulSoup、Scrapy等。在这个项目中，最常用的可能是requests库来发送HTTP请求，以及BeautifulSoup或lxml库来解析HTML内容。为了下载图片，我们可以使用urllib或者第三方库如wget、requests。下面是一般步骤： 1. **发送请求**：使用requests库向百度图片的搜索接口发送GET请求，带上关键词（比如“风景”、“动物”等）和其他参数，获取HTML页面。 2. **解析HTML**：接收到的HTML页面中，图片链接通常隐藏在`<img>`标签内。使用BeautifulSoup解析HTML，查找所有`<img>`标签，并提取出src属性，即图片URL。 3. **处理反爬机制**：百度图片可能会有反爬策略，如检查User-Agent、Cookie或者使用JavaScript动态加载图片。这时，我们可能需要设置合适的User-Agent，或者使用如Selenium这样的工具模拟浏览器行为。 4. **下载图片**：拿到图片URL后，用urllib或requests库的下载功能，将图片保存到本地。需要注意处理可能出现的网络错误，如超时或重定向。 5. **文件管理**：为了保持图片的组织性，通常会按照一定的规则（如按类别、日期等）创建文件夹，将图片存入相应的文件夹。 6. **异常处理**：在爬取过程中，可能会遇到各种异常，如网络连接问题、请求限制等。需要添加异常处理机制，确保程序的健壮性。 7. **多线程或异步**：为了提高爬取效率，可以使用Python的多线程或多进程，或者异步IO库如asyncio。但这也会增加程序的复杂性，需要权衡性能与可维护性。 8. **代码结构**：为了使代码易于理解和维护，应遵循良好的编程习惯，如模块化设计，将发送请求、解析HTML、下载图片等功能封装为独立函数。 9. **合法性与道德考虑**：使用爬虫时，必须遵守网站的robots.txt协议，尊重网站的版权，不要进行大规模无授权的数据抓取，以免触犯法律。总结，"Python爬虫实现百度图片自动下载"项目涉及到了Python爬虫的基本流程，包括发送HTTP请求、解析HTML、处理反爬机制、下载图片以及异常处理等多个环节。通过学习和实践这个项目，你可以深入理解Python爬虫的工作原理，并掌握爬虫开发的基本技巧。

资源推荐

资源详情

资源评论

收起资源包目录

Python爬虫实现百度图片自动下载.zip （13个子文件）

BaiduImageDownload-master

src

main.py 932B

LICENSE 1KB

images

栗山未来头像_5.jpg 377KB

栗山未来头像_2.jpg 19KB

栗山未来头像_7.jpg 15KB

栗山未来头像_6.jpg 20KB

栗山未来头像_9.jpg 87KB

栗山未来头像_1.jpg 11KB

栗山未来头像_8.jpg 99KB

栗山未来头像_4.jpg 7KB

栗山未来头像_10.jpg 7KB

栗山未来头像_3.jpg 123B

README.md 6KB

# Python爬虫实现百度图片自动下载 ## 制作爬虫的步骤制作一个爬虫一般分以下几个步骤： * 分析需求 * 分析网页源代码，配合开发者工具 * 编写正则表达式或者XPath表达式 * 正式编写 python 爬虫代码 ## 效果预览运行效果如下： ![][1] 存放图片的文件夹： ![][2] ## 需求分析我们的爬虫至少要实现两个功能：一是搜索图片，二是自动下载。搜索图片：最容易想到的是爬百度图片的结果，我们就上百度图片看看： ![][3] 随便搜索几个关键字，可以看到已经搜索出来很多张图片： ![][4] ## 分析网页我们点击右键，查看源代码： ![][5] 打开源代码之后，发现一堆源代码比较难找出我们想要的资源。这个时候，就要用开发者工具！我们回到上一页面，调出开发者工具，我们需要用的是左上角那个东西：(鼠标跟随)。 ![][6] 然后选择你想看源代码的地方，就可以发现，下面的代码区自动定位到了相应的位置。如下图： ![][7] ![][8] 我们复制这个地址，然后到刚才的一堆源代码里搜索一下，发现了它的位置，但是这里我们又疑惑了，这个图片有这么多地址，到底用哪个呢？我们可以看到有thumbURL，middleURL，hoverURL，objURL ![][9] 通过分析可以知道，前面两个是缩小的版本，hoverURL 是鼠标移动过后显示的版本，objURL 应该是我们需要的，可以分别打开这几个网址看看，发现 objURL 的那个最大最清晰。找到了图片地址，接下来我们分析源代码。看看是不是所有的 objURL 都是图片。 ![][10] 发现都是以.jpg格式结尾的图片。 ## 编写正则表达式 ```python pic_url = re.findall('"objURL":"(.*?)",',html,re.S) ``` ## 编写爬虫代码这里我们用了2个包，一个是正则，一个是 requests 包 ```python #-*- coding:utf-8 -*- import re import requests ``` 复制百度图片搜索的链接，传入 requests ，然后把正则表达式写好 ![][11] ```python url = 'https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=%E6%A0%97%E5%B1%B1%E6%9C%AA%E6%9D%A5%E5%A4%B4%E5%83%8F&ct=201326592&ic=0&lm=-1&width=&height=&v=index' html = requests.get(url).text pic_url = re.findall('"objURL":"(.*?)",',html,re.S) ``` 因为有很多张图片，所以要循环，我们打印出结果来看看，然后用 requests 获取网址，由于有些图片可能存在网址打不开的情况，所以加了10秒超时控制。 ```python pic_url = re.findall('"objURL":"(.*?)",',html,re.S) i = 1 for each in pic_url: print each try: pic= requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print('【错误】当前图片无法下载') continue ``` 接着就是把图片保存下来，我们事先建立好一个 images 目录，把图片都放进去，命名的时候，以数字命名。 ```python dir = '../images/' + keyword + '_' + str(i) + '.jpg' fp = open(dir, 'wb') fp.write(pic.content) fp.close() i += 1 ``` ## 完整的代码 ```python # -*- coding:utf-8 -*- import re import requests def dowmloadPic(html, keyword): pic_url = re.findall('"objURL":"(.*?)",', html, re.S) i = 1 print('找到关键词:' + keyword + '的图片，现在开始下载图片...') for each in pic_url: print('正在下载第' + str(i) + '张图片，图片地址:' + str(each)) try: pic = requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print('【错误】当前图片无法下载') continue dir = '../images/' + keyword + '_' + str(i) + '.jpg' fp = open(dir, 'wb') fp.write(pic.content) fp.close() i += 1 if __name__ == '__main__': word = input("Input key word: ") url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip' result = requests.get(url) dowmloadPic(result.text, word) ``` ![][12] ![][13] 我们看到有的图片没显示出来，打开网址看，发现确实没了。 ![][14] 因为百度有些图片它缓存到百度的服务器上，所以我们在百度上还能看见它，但它的实际链接已经失效了。 ## 总结 enjoy 我们的第一个图片下载爬虫吧！当然它不仅能下载百度的图片，依葫芦画瓢，你现在应该能做很多事情了，比如爬取头像，爬淘宝展示图等等。完整代码已经放到Github上 [https://github.com/nnngu/BaiduImageDownload](https://github.com/nnngu/BaiduImageDownload) [1]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517624440357.jpg [2]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517624588214.jpg [3]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517624851741.jpg [4]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517625097976.jpg [5]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517625636570.jpg [6]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517626066422.jpg [7]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517626276983.jpg [8]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517626329451.jpg [9]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517626739154.jpg [10]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517627100214.jpg [11]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517627638515.jpg [12]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517629256979.jpg [13]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517629346426.jpg [14]: https://www.github.com/nnngu/FigureBed/raw/master/2018/2/3/1517629377850.jpg

评论收藏

内容反馈