强力Java爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活.zip资源-CSDN文库

共229个文件

java：114个

xml：93个

gitignore：6个

java

爬虫

ajax

需积分: 5 143 浏览量 2023-06-16 20:44:21 上传评论收藏 29.78MB ZIP 举报

Java 爬虫技术在当前的信息时代中扮演着至关重要的角色，它可以帮助我们自动化地抓取和处理网络上的大量数据。本项目名为“强力 Java 爬虫”，它集成了列表分页、详细页分页、AJAX 处理以及微内核高扩展等特性，同时具备高度的灵活性，使得开发者可以根据实际需求进行定制。我们要理解什么是列表分页。在网页上，特别是数据量大的时候，通常会采用分页显示的方式来提高用户体验。列表分页就是爬虫针对这种页面结构设计的一种策略，通过识别和跟踪页码链接，爬虫能够逐页抓取数据，确保获取完整的信息集合。在 Java 爬虫中，我们可以利用如Jsoup这样的库解析HTML，提取出页码链接，并用递归或循环的方式进行分页爬取。接着，详细页分页通常是针对每个列表项的单独详情页面。当用户点击列表中的某个条目时，会跳转到包含该条目详细信息的页面。爬虫需要识别这些链接并访问它们，以获取更深入的数据。这可能涉及到处理动态加载的内容，比如通过JavaScript来获取信息。在Java爬虫中，可以使用如Selenium这样的浏览器自动化工具，模拟用户交互，处理动态内容。再来说说AJAX（Asynchronous JavaScript and XML），这是一种在不刷新整个页面的情况下与服务器交换数据并更新部分网页的技术。在爬虫领域，AJAX请求往往意味着数据的异步加载。为了捕获这些动态加载的内容，我们需要识别AJAX请求并模拟执行，例如使用OkHttp或Apache HttpClient发送HTTP请求，获取返回的JSON或XML数据。微内核高扩展的设计思想是指将核心功能模块化，只保留必要的组件，其他功能作为可插拔的模块。这样做的好处是使得爬虫代码结构清晰，易于维护和扩展。在Java中，可以使用Maven或Gradle来管理依赖和构建模块化的项目结构，通过接口定义公共行为，方便插入不同的实现。配置灵活是本项目的一大特点，这意味着开发者可以根据不同目标网站的特点和需求调整爬虫的参数和策略。这可能包括设置请求头、代理、延迟时间、重试机制等。Java的Properties文件或YAML配置文件可以用来存储这些设置，而Spring框架则可以提供强大的配置管理和依赖注入，帮助我们轻松地读取和应用配置。这个"强力 Java 爬虫"项目提供了一套全面的解决方案，用于处理各种网页分页和动态内容，同时它的设计思路使得开发者能轻松地根据实际需求进行定制。无论是新手还是经验丰富的爬虫开发者，都能从中受益，提升自己的数据抓取能力。通过学习和使用该项目，你可以深入理解Java爬虫技术，掌握如何处理分页、AJAX及实现灵活配置，从而在大数据分析、搜索引擎优化、市场研究等领域大展拳脚。

资源推荐

资源详情

资源评论

收起资源包目录

强力 Java 爬虫，列表分页、详细页分页、ajax、微内核高扩展、配置灵活.zip （229个子文件）

score_forecast.xml.bak2 9KB

.djunitplugin 0B

chromedriver.exe 6.61MB

.gitignore 256B

.gitignore 246B

DefaultModelParser.java 35KB

HttpClientDownloader.java 23KB

Spiderman.java 23KB

WebDriverModelParser.java 21KB

UrlUtils.java 16KB

UrlResolver.java 15KB

Site.java 13KB

TestSpiderForZWeb.java 13KB

SpiderConfig.java 11KB

Spider.java 10KB

TestSpider.java 9KB

HtmlUnitDownloader.java 8KB

TextExtractor.java 8KB

DigPointImpl.java 7KB

Match.java 7KB

WebDriverDownloader.java 7KB

ParsePointImpl.java 6KB

SpidermanControl.java 5KB

FetchPointImpl.java 5KB

PluginManager.java 5KB

URLCanonicalizer.java 5KB

DocIDServer.java 4KB

ParserUtil.java 4KB

UrlRuleChecker.java 3KB

TaskPushPointImpl.java 3KB

Model.java 3KB

Util.java 3KB

SpiderListenerAdaptor.java 3KB

DupRemovalPointImpl.java 2KB

XmlParseHandler.java 2KB

SpiderListener.java 2KB

ExtensionPoints.java 2KB

Field.java 2KB

FetchRequest.java 2KB

Page.java 2KB

TaskSortPointImpl.java 2KB

Status.java 2KB

Task.java 1KB

TaskQueue.java 1KB

FetchResult.java 1KB

Log.java 1KB

BeginPointImpl.java 1KB

Plugin.java 1KB

Orgnization.java 1KB

Target.java 1KB

Author.java 1KB

Parser.java 1KB

PageFetcher.java 1KB

Settings.java 1KB

Rule.java 1KB

SourceUrlChecker.java 826B

HttpUtil.java 817B

Cookie.java 760B

Rules.java 740B

IframeLinkFinder.java 737B

DefaultLinkFinder.java 734B

FrameLinkFinder.java 733B

Team.java 680B

TargetPointImpl.java 668B

Impl.java 653B

Seed.java 644B

Category.java 633B

ModelParser.java 591B

Cookie.java 548B

EndPointImpl.java 533B

DefaultLinkNormalizer.java 529B

ValidHosts.java 526B

Targets.java 518B

TaskPollPointImpl.java 498B

Provider.java 488B

NSMap.java 477B

XPath.java 476B

Urls.java 475B

Header.java 470B

Option.java 468B

Extension.java 462B

ParsePoint.java 449B

Providers.java 447B

ValidHost.java 428B

Namespaces.java 410B

Options.java 407B

Cookies.java 382B

Headers.java 382B

Parsers.java 382B

Regexs.java 379B

XPaths.java 377B

DigPoint.java 375B

Seeds.java 366B

PojoPoint.java 364B

Exps.java 355B

EndPoint.java 350B

共 229 条

Spiderman - Java开源Web数据抽取工具 ======================================== **置顶：[Spiderman2](https://gitee.com/l-weiwei/Spiderman2)最新的预览版本已经出炉啦！简洁，更高性能，采集状态持久化，分布式，支持JS脚本，赶紧来体验一把吧！PS:后面稳定版本会更新到这里** Spiderman 是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。 Spiderman主要是运用了像XPath,正则表达式等这些技术来实数据抽取。它包含了两部分（二者缺一不可）： ----------------------------- * spiderman-core 内核 * spiderman-plugin 插件主要特点 ---------------------- * 微内核+插件式架构、灵活、可扩展性强 * 无需编写程序代码即可完成数据抽取 * 多线程保证性能怎么使用？ ---------- * 首先，确定好你的目标网站以及目标网页（即某一类你想要获取数据的网页，例如网易新闻的新闻页面） * 然后，打开目标页面，分析页面的HTML结构，得到你想要数据的XPath，具体XPath怎么获取请看下文。 * 最后，在一个xml配置文件里填写好参数，运行Spiderman吧！近期更新 ---- 1. <parser 的表达式支持发起HTTP请求获取内容了： <parser exp="$Fetcher.get('http://www.baidu.com')" 2. <target节点添加 <before节点配置，该配置与<model一样可以用来解析网页内容，主要的区别是该节点会在<model节点解析之前进行工作，其解析后的结果将会作为model的上下文$before.xxx来使用 3. 重构下载器，支持多种下载器实现，允许在xml里面配置自己实现的下载器实现类，官方默认提供了三种，分别是默认的基于HttpClient的下载器、基于WebUnit的下载器、基于Selenium WebDriver的实现 <site downloader="org.eweb4j.spiderman.plugin.util.WebDriverDownloader" 或者 <site downloader="xxx.YourDownloader"> 4. 与第三点一样，重构了模型解析器，使得现在支持多种不同的实现类，且允许开发者在xml上指定自己实现的解析器，目前官方提供了两种解析器，分别是DefaultModelParser，WebDriverModelParser <before parser="xxx.xxx.xxx.YourModelParser" 或者 <model parser="xxx.YourModelParser" 5. 其他一些零碎的更新、BUG修复等。 XPath获取技巧？ -------------- * 首先，下载xpathonclick插件，[猛击这里](https://chrome.google.com/webstore/search/xpathonclick) * 安装完毕之后，打开Chrome浏览器，可以看到右上角有个“X Path” 图标。 * 在浏览器打开你的目标网页，然后点击右上角的那个图片，然后点击网标上你想要获取XPath的地方，例如某个标题 * 这时候按住F12打开JS控制台，拖到底部，可以看到一串XPath内容 * 记住，这个内容不是绝对OK的，你可能还需要做些修改，因此，你最好还是去学习下XPath语法 * 学习XPath语法的地方：[猛击这里](http://www.w3school.com.cn/xpath/index.asp) Spiderman Sample | 案例 ======================= * 首先保证你的机器至少可以运行Java程序、也可以执行Maven命令 * 案例程序[spiderman-sample] mvn test * Spiderman程序将会运行N秒钟，然后到保存抓取数据的文件夹查看对应网站的数据 * 这里有篇文章介绍示例：[http://my.oschina.net/laiweiwei/blog/100866] 这是使用Spiderman的代码： public class TestSpider { private final Object mutex = new Object(); @Test public void test() throws Exception { String err = EWeb4JConfig.start(); if (err != null) throw new Exception(err); SpiderListener listener = new SpiderListenerAdaptor(){ public void afterScheduleCancel(){ //调度结束回调 } /** * 每次调度执行前回调此方法 * @date 2013-4-1 下午03:33:11 * @param theLastTimeScheduledAt 上一次调度时间 */ public void beforeEveryScheduleExecute(Date theLastTimeScheduledAt){ System.err.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [LAST_SCHEDULE_AT] ~ "); System.err.println("at -> " + CommonUtil.formatTime(theLastTimeScheduledAt)); } public void onFetch(Thread thread, Task task, FetchResult result) { System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [FETCH] ~ "); System.out.println("fetch result ->" + result + " from -> " + task.sourceUrl); } public void onNewUrls(Thread thread, Task task, Collection<String> newUrls) { System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [DIG] ~ "); System.out.println(newUrls); } public void onDupRemoval(Thread currentThread, Task task, Collection<Task> validTasks) { // for (Task t : validTasks){ // System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [DUPREMOVE] ~ "); // System.out.println(t.url+" from->"+t.sourceUrl); // } } public void onTaskSort(Thread currentThread, Task task, Collection<Task> afterSortTasks) { // for (Task t : afterSortTasks){ // System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [SORT] ~ "); // System.out.println(t.url+" from->"+t.sourceUrl); // } } public void onNewTasks(Thread thread, Task task, Collection<Task> newTasks) { // for (Task t : newTasks){ // System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [NEWTASK] ~ "); // System.out.println(t.sort + ",,,," + t.url+" from->"+t.sourceUrl); // } } public void onTargetPage(Thread thread, Task task, Page page) { // System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [TARGET] ~ "); // System.out.println(page.getUrl()); } public void onInfo(Thread thread, Task task, String info) { System.out.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [INFO] ~ "); System.out.println(info); } public void onError(Thread thread, Task task, String err, Throwable e) { System.err.print("[SPIDERMAN] "+CommonUtil.getNowTime("HH:mm:ss")+" [ERROR] ~ "); e.printStackTrace(); } public void onParse(Thread thread, Task task, List<Map<String, Object>> models) { final String projectRoot = FileUtil.getTopClassPath(TestSpider.class); final File dir = new File(projectRoot+"/Data/"+task.site.getName()+"/"+task.target.getName()); try { if (!dir.exists()) dir.mkdirs(); for (int i = 0; i < models.size(); i++) { Map<String, Object> map = models.get(i); String fileName = dir + "/count_" + task.site.counter.getCount() + i; StringBuilder sb = new StringBuilder(); for (Iterator<Entry<String,Object>> it = map.entrySet().iterator(); it.hasNext();){ Entry<String,Object> e = it.next(); boolean isBlank = false; if (e.getValue() == null) isBlank = true; else if (e.getValue() instanceof String && ((String)e.getValue()).trim().length() == 0) isBlank = true; else if (e.getValue() instanceof List && ((ArrayList<?>)e.getValue()).isEmpty()) isBlank = true; else if (e.getValue() instanceof List && !((ArrayList<?>)e.getValue()).isEmpty()) { if (((ArrayList<?>)e.getValue()).size() == 1 && String.valueOf(((ArrayList<?>)e.getValue()).get(0)).trim().length() == 0) isBlank = true; } if (isBlank){ if (sb.length() > 0) sb.append("_"); sb.append(e.getKey()); } } String content = CommonUtil.toJson(map); if (sb.length() > 0) fileName = fileName + "_no_"+sb.toString()+"_"; Fi

评论收藏

内容反馈