# !/usr/bin/python
# -*- coding: UTF-8 -*-
import requests
import os
from lxml import etree
# 创建文件夹
try:
os.mkdir('./4k图片爬取')
except Exception:
print('文件已创建!')
for i in range(2, 172):
i = str(i)
# 目录页面
ml_url = 'http://pic.netbian.com/4kmeinv/index_' + i + '.html'
# UA伪装请求头
header = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chromeh/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=ml_url, headers=header)
# 通用处理中文乱码的解决方法
res = response.text.encode('iso-8859-1')
treee = etree.HTML(res)
t = treee.xpath('//div[@class="slist"]/ul/li')
for tu in t:
http = 'http://pic.netbian.com'
# 标题
tit = tu.xpath('./a/img/@alt')[0]
# 地址
tp = http + tu.xpath('./a/img/@src')[0]
img = requests.get(url=tp, headers=header).content
imgpath = './4k图片爬取/' + tit + '.jpg'
with open(imgpath, 'wb') as fp:
# 传入二进制内容
fp.write(img)
print(tit, '下载成功!')
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
使用Python实现图片爬虫可以通过以下步骤进行: 导入相关库:首先需要导入必要的Python库,如requests(用于发送HTTP请求)、BeautifulSoup(用于解析HTML)、urllib(用于处理URL)等。 发送HTTP请求:使用requests库发送HTTP请求,获取目标网页的HTML内容。可以使用get()方法发送GET请求,并指定目标URL。 解析HTML内容:使用BeautifulSoup库对获取到的HTML内容进行解析,提取出目标图片的URL。 下载图片:使用urllib库中的urlretrieve()函数下载图片。将提取到的图片URL作为参数传入,指定保存的文件路径和文件名。 多页爬取:如果需要爬取多个页面的图片,可以使用循环遍历的方式,逐个爬取每个页面的图片。 异常处理:在爬取过程中,可能会遇到各种异常情况,如网络错误、URL不存在等。需要合理处理这些异常,以确保程序的稳定性和鲁棒性。 文件管理:根据需求,可以对下载的图片进行文件管理,如按照分类或日期存储、删除重复的图片等。 可选:如果需要更高级的功能,可以考虑使用多线程或异步编程技术,
资源推荐
资源详情
资源评论
收起资源包目录
Python实现图片爬虫.zip (1个子文件)
Python实现图片爬虫
day01.py 1KB
共 1 条
- 1
资源评论
童小纯
- 粉丝: 3w+
- 资源: 289
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功