jsoup+httpclientj简单爬虫资源-CSDN文库

共19个文件

jar：12个

java：2个

class：2个

需积分: 10 44 浏览量 2018-07-05 09:43:02 上传评论收藏 3.32MB RAR 举报

**JSoup + HttpClient 简单爬虫** 在信息技术领域，数据抓取，或称“爬虫”，是一种自动化获取网页信息的技术。JavaScript Object Notation (JSON) Soup 和 HttpClient 是两个在Java开发中常用于实现爬虫功能的库。JSoup 提供了方便的 API 用于解析 HTML 文档，而 HttpClient 则是 Apache 开源组织提供的一个用于执行 HTTP 请求的强大工具。本文将深入探讨如何结合这两者构建一个简单的 Java 爬虫。我们需要理解 **JSoup** 的核心功能。JSoup 是一个用于处理真实世界 HTML 的 Java 库。它提供了一种非常方便的方法来解析 HTML 文档，提取和操作数据。JSoup 将网页内容解析为一个复杂的 DOM 树结构，使得开发者可以通过 CSS 选择器或者直接的节点遍历来查找、提取和修改数据。例如，要从一个网页中抓取所有的段落（`<p>` 标签），你可以使用以下 JSoup 代码： ```java import org.jsoup.Jsoup; import org.jsoup.nodes.Document; // 获取网页内容 Document doc = Jsoup.connect("http://example.com").get(); // 使用CSS选择器提取所有段落 Elements paragraphs = doc.select("p"); // 遍历并打印每个段落 for (Element paragraph : paragraphs) { System.out.println(paragraph.text()); } ``` **HttpClient** 是 Apache HttpClient 库，它允许我们执行各种 HTTP 方法，如 GET、POST、PUT 等，并处理响应。在爬虫中，HttpClient 主要用来发送请求到目标网站，获取网页的原始 HTML 内容。HttpClient 的强大之处在于它支持各种自定义设置，如设置请求头、超时、重试策略等。下面是一个使用 HttpClient 获取网页内容的例子： ```java import org.apache.http.HttpEntity; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; // 创建HttpClient实例 CloseableHttpClient httpClient = HttpClients.createDefault(); // 创建HttpGet请求 HttpGet httpGet = new HttpGet("http://example.com"); // 执行请求并获取响应 CloseableHttpResponse response = httpClient.execute(httpGet); try { // 获取响应实体 HttpEntity entity = response.getEntity(); // 如果有内容，使用EntityUtils将其转换为字符串 if (entity != null) { String htmlContent = EntityUtils.toString(entity); // 然后可以将 htmlContent 传递给 Jsoup 进行解析 } } finally { response.close(); httpClient.close(); } ``` 将 JSoup 与 HttpClient 结合，我们可以在 HttpClient 获取 HTML 后，用 JSoup 解析和处理数据。这样，我们就能构建一个基本的爬虫，能够从指定网页抓取信息，甚至处理动态加载的内容。在实际项目中，我们还需要考虑其他因素，比如处理网页编码、错误处理、反爬机制、数据存储等。为了提高爬虫的效率和稳定性，可能需要引入线程池、数据库连接、日志系统等组件。此外，合法使用爬虫时，应遵守网站的 robots.txt 文件规定，尊重网站的版权和用户隐私。通过这个名为 "jsoupTest" 的项目，你可以进一步实践上述概念，编写一个简单的爬虫程序，抓取指定网页的数据，然后使用 JSoup 进行解析。这个过程可以帮助你更好地理解和掌握这两种库的使用方法，为更复杂的网络爬虫项目打下坚实的基础。

资源推荐

资源详情

资源评论

收起资源包目录

jsoupTest.rar （19个子文件）

jsoupTest

.project 385B

src

com

sgnbs

HttpClientJsoupTest01Test.java 238B

HttpClientJsoupTest01.java 2KB

lib

servlet-api.jar 86KB

httpcore-4.4.9.jar 318KB

jna-4.4.0.jar 1.04MB

commons-codec-1.10.jar 278KB

jna-platform-4.4.0.jar 2.18MB

httpclient-cache-4.5.5.jar 158KB

httpclient-win-4.5.5.jar 17KB

jsoup-1.11.3.jar 386KB

fluent-hc-4.5.5.jar 31KB

httpmime-4.5.5.jar 41KB

httpclient-4.5.5.jar 748KB

commons-logging-1.2.jar 60KB

.settings

org.eclipse.jdt.core.prefs 598B

.classpath 1KB

bin

com

sgnbs

HttpClientJsoupTest01Test.class 666B

HttpClientJsoupTest01.class 3KB

package com.sgnbs; import java.io.IOException; import java.net.URL; import org.apache.http.HttpEntity; import org.apache.http.client.ClientProtocolException; import org.apache.http.client.methods.CloseableHttpResponse; import org.apache.http.client.methods.HttpGet; import org.apache.http.impl.client.CloseableHttpClient; import org.apache.http.impl.client.HttpClients; import org.apache.http.util.EntityUtils; import org.jsoup.Jsoup; import org.jsoup.nodes.Document; import org.jsoup.nodes.Element; import org.jsoup.select.Elements; public class HttpClientJsoupTest01 { //url传入 "http://www.csdn.net/" public void get(String url) { CloseableHttpClient client=HttpClients.createDefault(); //定义一个默认的请求客户端 HttpGet get=new HttpGet(url); //定义一个get请求 CloseableHttpResponse response=null; //定义一个响应 try { response=client.execute(get); System.out.println(response.getStatusLine().getStatusCode());//打印响应状态码，200表示成功 HttpEntity entity=response.getEntity(); //获取响应实体 String html=EntityUtils.toString(entity); //将实体的内容转换为字符串 System.out.println(html); /** * 接下来就利用jsoup来解析前面取得的html，并获取csdn首页的极客头条栏目下的标题 */ Document document=Jsoup.parse(new URL(url).openStream(), "utf-8", url); //利用Jsoup类的静态方法，将html转换成一个Document对象 Element element=document.select("div.wrap .left .hot_blog ul").first(); //利用select选择器，取得需要的li元素集合 Elements elements= element.select("a"); //取得a链接的集合 for (Element element2 : elements) { System.out.println("标题："+element2.attr("title")+" -->> 地址："+element2.attr("href")); } } catch (ClientProtocolException e) { // TODO Auto-generated catch block e.printStackTrace(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); }finally { try { response.close(); client.close(); } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } } } }

评论收藏

内容反馈