Python实现图片爬虫示例

共1个文件

py：1个

python

爬虫

需积分: 5 3 下载量 153 浏览量 2023-07-25 16:24:46 上传评论收藏 1KB ZIP 举报

温馨提示

使用Python实现图片爬虫可以通过以下步骤进行：导入相关库：首先需要导入必要的Python库，如requests（用于发送HTTP请求）、BeautifulSoup（用于解析HTML）、urllib（用于处理URL）等。发送HTTP请求：使用requests库发送HTTP请求，获取目标网页的HTML内容。可以使用get()方法发送GET请求，并指定目标URL。解析HTML内容：使用BeautifulSoup库对获取到的HTML内容进行解析，提取出目标图片的URL。下载图片：使用urllib库中的urlretrieve()函数下载图片。将提取到的图片URL作为参数传入，指定保存的文件路径和文件名。多页爬取：如果需要爬取多个页面的图片，可以使用循环遍历的方式，逐个爬取每个页面的图片。异常处理：在爬取过程中，可能会遇到各种异常情况，如网络错误、URL不存在等。需要合理处理这些异常，以确保程序的稳定性和鲁棒性。文件管理：根据需求，可以对下载的图片进行文件管理，如按照分类或日期存储、删除重复的图片等。可选：如果需要更高级的功能，可以考虑使用多线程或异步编程技术，

资源推荐

资源详情

资源评论

收起资源包目录

Python实现图片爬虫.zip （1个子文件）

Python实现图片爬虫

day01.py 1KB

共 1 条

# !/usr/bin/python # -*- coding: UTF-8 -*- import requests import os from lxml import etree # 创建文件夹 try: os.mkdir('./4k图片爬取') except Exception: print('文件已创建！') for i in range(2, 172): i = str(i) # 目录页面 ml_url = 'http://pic.netbian.com/4kmeinv/index_' + i + '.html' # UA伪装请求头 header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36' } response = requests.get(url=ml_url, headers=header) # 通用处理中文乱码的解决方法 res = response.text.encode('iso-8859-1') treee = etree.HTML(res) t = treee.xpath('//div[@class="slist"]/ul/li') for tu in t: http = 'http://pic.netbian.com' # 标题 tit = tu.xpath('./a/img/@alt')[0] # 地址 tp = http + tu.xpath('./a/img/@src')[0] img = requests.get(url=tp, headers=header).content imgpath = './4k图片爬取/' + tit + '.jpg' with open(imgpath, 'wb') as fp: # 传入二进制内容 fp.write(img) print(tit, '下载成功！')

评论收藏

内容反馈

资源评论