爬虫图片，保存本地_免费的用于爬虫的图片网站资源-CSDN文库

共13个文件

class：2个

java：2个

xml：1个

4星 · 超过85%的资源需积分: 32 127 浏览量 2017-10-19 17:35:51 上传评论 1 收藏 15KB ZIP 举报

在IT行业中，爬虫技术是一种常见的数据获取方法，尤其在处理网页图片时，它能高效地从互联网上抓取大量的图像资源。本话题主要聚焦于如何利用爬虫技术抓取并保存图片到本地，这对于网站初期的数据填充或构建图片服务器来说至关重要。要理解爬虫的基本原理。爬虫（Web Crawler）是通过自动化程序模拟人类浏览网页的行为，遍历互联网上的网页，抓取所需信息。在抓取图片时，我们需要识别HTML代码中的`<img>`标签，其中的`src`属性通常指向图片的URL。我们可以使用Python的requests库来发送HTTP请求，下载图片，并用BeautifulSoup等HTML解析库找到`<img>`标签。以下是一个简单的Python爬虫代码示例，展示了如何抓取并保存图片到本地： ```python import requests from bs4 import BeautifulSoup def download_image(url, filename): response = requests.get(url) with open(filename, 'wb') as f: f.write(response.content) def crawl_images(url): response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') for img in soup.find_all('img'): img_url = img['src'] if not img_url.startswith('http'): # 如果图片URL是相对路径，需拼接完整URL img_url = url + img_url download_image(img_url, img_url.split('/')[-1]) # 调用函数，传入目标网页URL crawl_images('http://example.com') ``` 这段代码首先定义了一个`download_image`函数用于下载单个图片，然后`crawl_images`函数负责解析网页，查找所有图片并调用`download_image`下载。注意，实际应用中可能需要处理更复杂的情况，如登录验证、反爬策略、代理设置等。为了提高爬虫的效率和稳定性，我们可能需要使用异步请求库，如Scrapy或Aiohttp，它们可以并发处理多个请求，减少网络延迟。同时，合理设置延时或使用随机延时策略可以避免对目标网站造成过大压力，遵循互联网爬虫道德规范。此外，对于大规模图片抓取，存储和管理也是关键问题。可能需要设计数据库或文件系统架构来有效地存储和检索这些图片。例如，可以使用NoSQL数据库如MongoDB的GridFS存储大文件，或者通过文件系统的目录结构分类图片。标签"爬虫图片"表明这个话题专门讨论了如何使用爬虫技术处理图片。在实际应用中，爬虫图片可能用于训练机器学习模型（如图像识别、物体检测），创建数据集，或是为新网站提供初始的图像内容。总结一下，爬虫图片涉及的技术包括但不限于：HTML解析（如BeautifulSoup）、HTTP请求（如requests）、图片下载和存储、异步请求（如Scrapy、Aiohttp）以及可能的数据库管理。正确地运用这些工具和技巧，可以高效地从网上获取并管理大量图片资源。

资源详情

资源评论

收起资源包目录

Crawler.zip （13个子文件）

Crawler

.project 907B

WebContent

WEB-INF

lib

META-INF

MANIFEST.MF 39B

src

com

tool

ImageTool.java 4KB

WebCrawlerDemo.java 4KB

.settings

org.eclipse.wst.jsdt.ui.superType.container 49B

org.eclipse.wst.common.project.facet.core.xml 345B

org.eclipse.jdt.core.prefs 364B

org.eclipse.wst.jsdt.ui.superType.name 6B

org.eclipse.wst.common.component 473B

.jsdtscope 567B

build

classes

com

tool

WebCrawlerDemo.class 5KB

ImageTool.class 5KB

.classpath 841B

package com.xi.tool; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStream; import java.io.InputStreamReader; import java.net.HttpURLConnection; import java.net.MalformedURLException; import java.net.URL; import java.util.LinkedHashMap; import java.util.Map; import java.util.regex.Matcher; import java.util.regex.Pattern; public class WebCrawlerDemo { public static void main(String[] args) throws Exception { WebCrawlerDemo webCrawlerDemo = new WebCrawlerDemo(); webCrawlerDemo.myPrint("http://www.tooopen.com"); } public void myPrint(String baseUrl) throws Exception { Map<String, Boolean> oldMap = new LinkedHashMap<String, Boolean>(); // 存储链接-是否被遍历 // 键值对 String oldLinkHost = ""; // host Pattern p = Pattern.compile("(https?://)?[^/\\s]*"); // 比如：http://www.zifangsky.cn Matcher m = p.matcher(baseUrl); if (m.find()) { oldLinkHost = m.group(); } oldMap.put(baseUrl, false); oldMap = crawlLinks(oldLinkHost, oldMap); for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) { System.out.println("链接：" + mapping.getKey()); } } /** * 抓取一个网站所有可以抓取的网页链接，在思路上使用了广度优先算法对未遍历过的新链接不断发起GET请求，一直到遍历完整个集合都没能发现新的链接 * 则表示不能发现新的链接了，任务结束 * * @param oldLinkHost * 域名，如：http://www.zifangsky.cn * @param oldMap * 待遍历的链接集合 * * @return 返回所有抓取到的链接集合 * @throws Exception */ private Map<String, Boolean> crawlLinks(String oldLinkHost, Map<String, Boolean> oldMap) throws Exception { Map<String, Boolean> newMap = new LinkedHashMap<String, Boolean>(); String oldLink = ""; for (Map.Entry<String, Boolean> mapping : oldMap.entrySet()) { System.out.println("link:" + mapping.getKey() + "--------check:" + mapping.getValue()); ImageTool cm = new ImageTool(); cm.downloadImage(mapping.getKey()); // 如果没有被遍历过 if (!mapping.getValue()) { oldLink = mapping.getKey(); // 发起GET请求 try { URL url = new URL(oldLink); HttpURLConnection connection = (HttpURLConnection) url.openConnection(); connection.setRequestMethod("GET"); connection.setConnectTimeout(2000); connection.setReadTimeout(2000); if (connection.getResponseCode() == 200) { InputStream inputStream = connection.getInputStream(); BufferedReader reader = new BufferedReader(new InputStreamReader(inputStream, "UTF-8")); String line = ""; Pattern pattern = Pattern.compile("<a.*?href=[\"']?((https?://)?/?[^\"']+)[\"']?.*?>(.+)</a>"); Matcher matcher = null; while ((line = reader.readLine()) != null) { matcher = pattern.matcher(line); if (matcher.find()) { String newLink = matcher.group(1).trim(); // 链接 // String title = matcher.group(3).trim(); //标题 // 判断获取到的链接是否以http开头 if (!newLink.startsWith("http")) { if (newLink.startsWith("/")) newLink = oldLinkHost + newLink; else newLink = oldLinkHost + "/" + newLink; } // 去除链接末尾的 / if (newLink.endsWith("/")) newLink = newLink.substring(0, newLink.length() - 1); // 去重，并且丢弃其他网站的链接 if (!oldMap.containsKey(newLink) && !newMap.containsKey(newLink) && newLink.startsWith(oldLinkHost)) { // System.out.println("temp2: " + newLink); newMap.put(newLink, false); } } } } } catch (MalformedURLException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } try { Thread.sleep(1000); } catch (InterruptedException e) { e.printStackTrace(); } oldMap.replace(oldLink, false, true); } } // 有新链接，继续遍历 if (!newMap.isEmpty()) { oldMap.putAll(newMap); oldMap.putAll(crawlLinks(oldLinkHost, oldMap)); // 由于Map的特性，不会导致出现重复的键值对 } return oldMap; } }

评论收藏

内容反馈

奋斗不止-生命不息

2017-10-19

跑了一下，下载失败啊

wxj123465
上传者
2017-12-11

把问题贴一下，给你解决，我机器上是可以用的！

爬虫图片，保存本地

评论1

最新资源

爬虫图片，保存本地

评论1

最新资源

相关推荐

Python爬虫获取图片并下载保存至本地的实例

Python使用爬虫抓取美女图片并保存到本地的方法【测试可用】

爬虫 获取图片

python3 网站图片爬虫

python 抓取一个网站所有图片并保存

爬虫项目可爬取图片文字等

爬取图片并保存

将网页上的图片保存在本地

python scrapy 爬虫 下载并保存图片

爬虫爬去百度图片

带爬虫的图片浏览器可以批量下载图片

利用python代码爬虫快速批量下载你需要的图片

Winforms写的简单图片爬虫

爬虫淘宝页面图片，exe文件

python图片爬虫

207集Python爬虫高级实战教程视频.zip

基于java爬取网络图片并且保存到本地

Python3爬虫学习之将爬取的信息保存到本地的方法详解

C#爬虫Selenium爬百度热搜，自动保存百度热搜标题和大纲以及对应的图片，然后利用AI话术生成文案，营销号文章生成器！

xiaohua.py网络爬虫

Notepad++安装包

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

微信小程序源码-合集1.rar

SwitchHosts

ruoyi-vue-pro 芋道源码项目的表结构

RocketMQ 可视化工具 Dashboard下载

爬虫获取图片

python scrapy 爬虫下载并保存图片