Web-crawler:用jSoup用Java编写的Internet爬网程序资源-CSDN文库

共105个文件

html：56个

class：19个

java：19个

需积分: 5 192 浏览量 2021-05-11 16:15:25 上传评论收藏 413KB ZIP 举报

**标题解析：** "Web-crawler:用jSoup用Java编写的Internet爬网程序" 这个标题揭示了我们正在讨论一个使用Java编程语言，并且依赖于jSoup库的网络爬虫项目。jSoup是一个非常流行的Java库，专门用于解析HTML内容，便于数据抓取和处理。 **描述详解：** 描述中提到的是一个"简单的库，允许编写单线程Web搜寻器"，这意味着这个项目提供了一个基础框架，用户可以快速构建一个能够遍历和抓取网页的单线程爬虫。"查看src / Demo1和src / Demo2的使用示例"提示我们，源代码中包含了两个演示示例，分别位于`Demo1`和`Demo2`这两个文件或目录下，我们可以参考这些示例来学习如何使用这个库。 **标签：** "HTML"标签表明此项目主要与HTML解析和处理有关。由于jSoup库的主要功能就是解析HTML，因此我们可以预期爬虫会抓取并解析HTML页面，从中提取所需的数据。 **文件名称列表：** 虽然未提供具体的文件列表，但根据常见的开源项目结构，"Web-crawler-master"可能是项目的主分支或主目录，通常包含项目的源代码、资源文件、构建脚本、测试案例等。 **核心知识点：** 1. **Web爬虫**：这是一种自动化程序，用于遍历互联网上的网页，收集信息。它模拟浏览器行为，发送HTTP请求并接收响应，然后解析内容。 2. **Java编程**：这是一种广泛应用的面向对象的编程语言，适合构建跨平台的应用，包括网络爬虫。 3. **jSoup库**：jSoup是Java的一个HTML解析库，它可以解析HTML文档，提供类似于DOM的API来查找和操作HTML元素，同时支持CSS选择器，使得数据抓取变得简单。 4. **单线程爬虫**：这种爬虫在任何给定时间仅执行一个任务，即下载和解析一个网页。相比于多线程或异步爬虫，它可能效率较低，但在某些场景下，如对网站的友好性有较高要求时，单线程爬虫是个不错的选择。 5. **HTML解析**：理解HTML结构并从中提取数据是爬虫的重要任务。jSoup提供了解析和提取HTML元素的工具。 6. **示例代码**：`Demo1`和`Demo2`提供了实际应用的示例，帮助开发者了解如何利用这个库来创建自己的爬虫。 7. **源代码结构**：在实际项目中，我们通常会看到如`src`目录下的组织结构，包含类文件和其他源代码，以及可能的测试目录和配置文件。 8. **版本控制**：`-master`通常表示这是项目的主要分支，可能使用Git或其他版本控制系统进行管理。学习这个项目，你将掌握如何使用Java和jSoup库创建一个简单的Web爬虫，包括发送HTTP请求、解析HTML、提取数据以及如何通过示例代码来理解并实现这些功能。这对于想要进行网页数据抓取或Web开发的初学者来说是一次宝贵的实践机会。

资源推荐

资源详情

资源评论

收起资源包目录

Web-crawler:用jSoup用Java编写的Internet爬网程序（105个子文件）

Crawler.class 4KB

PageInfoQueue.class 4KB

Statistics.class 2KB

PageInfo.class 2KB

Main2.class 2KB

TreeMapSort.class 2KB

InternetPageInfo.class 2KB

Main.class 2KB

Main1.class 2KB

HDDPageInfo.class 2KB

HDDFullPage.class 1KB

InternetFullPage.class 1KB

ExternalDomainCondition.class 869B

SamePageRootCondition.class 824B

SameDomainCondition.class 822B

FullPage.class 628B

AlwaysTrueCondition.class 563B

Condition.class 195B

.classpath 352B

stylesheet.css 11KB

titlebar.gif 10KB

background.gif 2KB

titlebar_end.gif 849B

tab.gif 291B

PageInfoQueue.html 25KB

PageInfo.html 16KB

PageInfo.html 14KB

HDDPageInfo.html 14KB

InternetPageInfo.html 13KB

Crawler.html 12KB

Statistics.html 11KB

index-2.html 10KB

SamePageRootCondition.html 10KB

ExternalDomainCondition.html 10KB

SameDomainCondition.html 10KB

PageInfoQueue.html 9KB

AlwaysTrueCondition.html 9KB

Condition.html 9KB

InternetFullPage.html 9KB

HDDFullPage.html 9KB

TreeMapSort.html 9KB

FullPage.html 9KB

help-doc.html 8KB

package-summary.html 8KB

Main.html 8KB

package-tree.html 8KB

Condition.html 8KB

FullPage.html 7KB

overview-tree.html 7KB

index-12.html 7KB

index-6.html 7KB

index-13.html 7KB

index-7.html 7KB

index-10.html 6KB

index-3.html 6KB

index-1.html 6KB

index-5.html 6KB

index-11.html 6KB

InternetPageInfo.html 6KB

HDDPageInfo.html 5KB

package-use.html 5KB

index-8.html 5KB

index-4.html 5KB

index-9.html 5KB

ExternalDomainCondition.html 4KB

SamePageRootCondition.html 4KB

SameDomainCondition.html 4KB

AlwaysTrueCondition.html 4KB

InternetFullPage.html 4KB

HDDFullPage.html 4KB

TreeMapSort.html 4KB

Statistics.html 4KB

Crawler.html 4KB

Main.html 4KB

constant-values.html 3KB

deprecated-list.html 3KB

allclasses-frame.html 3KB

package-frame.html 3KB

allclasses-noframe.html 2KB

index.html 1KB

jsoup-1.7.2.jar 287KB

Crawler.java 4KB

PageInfoQueue.java 2KB

PageInfo.java 2KB

Statistics.java 1KB

HDDPageInfo.java 1KB

InternetPageInfo.java 1KB

Main.java 1005B

Main2.java 980B

Main.java 894B

Main1.java 887B

TreeMapSort.java 641B

HDDFullPage.java 555B

InternetFullPage.java 508B

ExternalDomainCondition.java 449B

SameDomainCondition.java 436B

SamePageRootCondition.java 433B

FullPage.java 397B

Condition.java 255B

共 105 条

评论收藏

内容反馈

基少成多

粉丝: 25
资源: 4537

Web-crawler:用jSoup用Java编写的Internet爬网程序

crawler4j：Java的开源Web爬网程序

Java-Web-Crawler:一个简单的Java Web爬网程序，用于爬网根链接并将结果存储在MySQL数据库中

javaweb修改源码-Web-Crawler-:Web爬网程序Java源代码。对其进行修改以收集和存储包含特定单词的链接

java源码网络爬虫-crawler4j:Java的开源简单Web爬网程序。简单灵活轻巧

可配置的并行Web爬网程序，旨在对网站进行爬网以获取内容。-Rust开发

retrofit-crawler:一个简单的api来抓取html。 基于jsoup和改造

Web-Crawler:用Python编写的Web爬网程序模板

Java-Web-crawler-spider.rar_JAVA web 爬虫_Java spider_crawler_spid

android-crawler:基于Jsoup的 Android 网络爬虫，抓取海投网上的高校宣讲会信息

java8看不到源码-verapdf-crawler:verapdf-爬虫

WebCollector:WebCollector是基于Java的开源Web爬网程序框架。-开源

roadburn-redux-crawler:Web爬网程序，用于从Roadburn Redux获取所有视频URL（2021）

java源码网络爬虫-serritor:Serritor是一个基于Selenium并用Java编写的开源Web爬网程序框架。它可用于对需要Ja

scrapy-azuresearch-crawler-samples：Scrapy作为Azure搜索示例的Web爬网程序

pika-web-crawler-test：用于通过快照比较进行Web测试的Web爬网程序测试脚本

Java-Web-crawler-.zip_JAVA web 爬虫_crawler_java web crawler_java

Concurrent-Web-Crawler:用Java实现的多线程Web搜寻器

crawler-jsoup-demo:使用jsoup构建爬虫程序

powerpage-web-crawler:使用 Powerpage 的便携式轻量级网络爬虫

Crawler-Web-Nodejs:用nodeJS和MongoDB编写的Web爬网程序

collector-http:Norconex HTTP Collector是一个灵活的Web爬网程序，用于从Internet（或Intranet）到各种数据存储库（例如搜索引擎）的数据收集，解析和处理

lesa-crawler:用于LESA的基于Scrapy的Web爬网程序

Simple-Web-Crawler-master_爬虫_

Node-Web-Crawler:Monzo带回家的应用程序-使用请求承诺和Cheerio的Node中的Web爬网程序

Web-Crawler:DB程序编程师

Java版水果管理系统源码-lsp-crawler:lsp-爬虫

discovery-web-crawler:搜寻网站并填充Watson Discovery Collection

Web-Crawler:检索网址以提取信息图像

最新资源

retrofit-crawler:一个简单的api来抓取html。基于jsoup和改造