网络爬虫用堆栈队列贮存url资源-CSDN文库

共29个文件

jar：10个

class：8个

java：6个

4星 · 超过85%的资源需积分: 3 97 浏览量 2012-02-17 11:32:55 上传评论收藏 1.1MB ZIP 举报

网络爬虫是自动抓取网页信息的程序，它在互联网上遍历网页，收集所需数据。在实现网络爬虫时，高效地管理待抓取URL（统一资源定位符）是关键。这里，我们讨论如何使用堆栈和队列来优化这一过程。让我们了解一下堆栈和队列这两种数据结构。堆栈是一种后进先出（LIFO）的数据结构，而队列则是先进先出（FIFO）的数据结构。在爬虫中，队列常用来存储待抓取的URL，因为它们通常是按发现的顺序处理的。一旦一个URL被添加到队列中，它就会按照加入的顺序被爬虫访问。而堆栈则可以用来检查已抓取的URL，防止重复抓取同一网页，因为新抓取的URL会被压入堆栈，当检查时，最先被弹出的一定是最早抓取的URL。在描述中提到的实现中，使用链表作为队列的基础数据结构。链表相比于数组，更适合动态扩展，尤其在频繁插入和删除元素时，效率更高。待抓取的URL被添加到链表的尾部，而爬虫会从头部开始处理URL。 HtmlClient和HtmlParser是网络爬虫中的核心组件。HtmlClient通常负责实际的HTTP请求，发送GET或POST请求到服务器，并接收返回的HTML文档。它可能利用如Apache HttpClient库（如压缩包中的commons-httpclient-3.0.1.jar），这是一个强大且灵活的HTTP客户端实现，支持各种HTTP协议特性。 HtmlParser则用于解析接收到的HTML文档，从中提取有用的信息，如链接、标题、内容等。压缩包中的htmlparser.jar可能包含了这个功能。HtmlParser库通常提供了API，使得开发者可以方便地定位和提取HTML元素。例如，它可以找到所有的`<a>`标签（代表链接），并将它们的`href`属性（即链接地址）提取出来，添加到待抓取URL的队列中。此外，压缩包中的一些其他文件也揭示了该爬虫实现可能依赖的库。log4j-1.2.11.jar是日志记录工具，用于记录爬虫运行时的调试信息和错误；commons-codec-1.5.jar可能用于URL编码和解码，以及其他编码操作；commons-logging-1.1.1.jar是日志接口，允许使用多种日志实现；junit-3.8.1.jar是单元测试框架，用于测试代码的正确性；filterbuilder.jar和thumbelina.jar可能提供了特定的过滤或处理HTML内容的函数；而sitecapturer.jar可能是用于保存或展示抓取的网页内容的工具。这个网络爬虫实现通过堆栈和队列有效地管理URL，利用HtmlClient和HtmlParser进行HTTP通信和HTML解析。配合其他的辅助库，如日志记录、编码解码和测试工具，构建了一个完整的爬虫系统，适用于初学者学习和实践网络爬虫技术。

资源推荐

资源详情

资源评论

收起资源包目录

PiderOne.zip （29个子文件）

commons-logging-1.1.1.jar 59KB

PiderOne

temp

www.twt.edu.cn.html 80KB

src

Queue.java 567B

LinkFilter.java 77B

LinkQueue.java 1KB

HtmlParserTool.java 2KB

DownLoadFile.java 3KB

MyCrawler.java 2KB

bin

LinkQueue.class 1KB

HtmlParserTool$1.class 793B

MyCrawler.class 2KB

DownLoadFile.class 4KB

Queue.class 928B

MyCrawler$1.class 699B

HtmlParserTool.class 3KB

LinkFilter.class 142B

.classpath 1KB

.settings

org.eclipse.jdt.core.prefs 629B

.myeclipse

profiler

MyCrawler.xml 791B

.project 384B

junit-3.8.1.jar 118KB

log4j-1.2.11.jar 342KB

htmllexer.jar 70KB

htmlparser.jar 136KB

filterbuilder.jar 68KB

commons-codec-1.5.jar 71KB

thumbelina.jar 42KB

commons-httpclient-3.0.1.jar 273KB

sitecapturer.jar 15KB

import java.io.DataOutputStream; import java.io.File; import java.io.FileOutputStream; import java.io.IOException; import org.apache.commons.httpclient.DefaultHttpMethodRetryHandler; import org.apache.commons.httpclient.HttpClient; import org.apache.commons.httpclient.HttpException; import org.apache.commons.httpclient.HttpStatus; import org.apache.commons.httpclient.methods.GetMethod; import org.apache.commons.httpclient.params.HttpMethodParams; import org.htmlparser.util.ParserException; public class DownLoadFile { /** * 根据 url 和网页类型生成 * 需要保存的网页的文件名去除掉 url 中非文件名字符 */ public String getFileNameByUrl(String url,String contentType) { //remove http:// url=url.substring(7); //text/html类型 if(contentType.indexOf("html")!=-1) { url= url.replaceAll("[\\?/:*|<>\"]", "_")+".html"; return url; } //如application/pdf类型 else { return url.replaceAll("[\\?/:*|<>\"]", "_")+"."+ contentType.substring(contentType.lastIndexOf("/")+1); } } /** * 保存网页字节数组到本地文件 filePath 为要保存的文件的相对地址 */ private void saveToLocal(byte[] data, String filePath) { try { DataOutputStream out = new DataOutputStream(new FileOutputStream( new File(filePath))); for (int i = 0; i < data.length; i++) out.write(data[i]); out.flush(); out.close(); } catch (IOException e) { e.printStackTrace(); } } /* 下载 url 指向的网页 */ public String downloadFile(String url)throws ParserException { String filePath = null; /* 1.生成 HttpClinet 对象并设置参数 */ HttpClient httpClient = new HttpClient(); // 设置 Http 连接超时 5s httpClient.getHttpConnectionManager().getParams().setConnectionTimeout( 5000); /* 2.生成 GetMethod 对象并设置参数 */ GetMethod getMethod = new GetMethod(url); // 设置 get 请求超时 5s getMethod.getParams().setParameter(HttpMethodParams.SO_TIMEOUT, 5000); // 设置请求重试处理 getMethod.getParams().setParameter(HttpMethodParams.RETRY_HANDLER, new DefaultHttpMethodRetryHandler()); /* 3.执行 HTTP GET 请求 */ try { int statusCode = httpClient.executeMethod(getMethod); // 判断访问的状态码 if (statusCode != HttpStatus.SC_OK) { System.err.println("Method failed: " + getMethod.getStatusLine()); filePath = null; } /* 4.处理 HTTP 响应内容 */ byte[] responseBody = getMethod.getResponseBody();// 读取为字节数组 // 根据网页 url 生成保存时的文件名 filePath = "temp\\" + getFileNameByUrl(url, getMethod.getResponseHeader( "Content-Type").getValue()); saveToLocal(responseBody, filePath); } catch (HttpException e) { // 发生致命的异常，可能是协议不对或者返回的内容有问题 System.out.println("Please check your provided http address!"); e.printStackTrace(); } catch (IOException e) { // 发生网络异常 e.printStackTrace(); } finally { // 释放连接 getMethod.releaseConnection(); } return filePath; } }

评论收藏

内容反馈