WebMagic(Java爬虫框架).zip资源-CSDN文库

共284个文件

java：227个

xml：16个

html：13个

版权申诉

13 浏览量 2022-11-16 02:18:59 上传评论收藏 365KB ZIP 举报

WebMagic是一个用Java编写的开放源代码爬虫框架，它为开发者提供了强大的工具来抓取网页内容并进行处理。这个框架的设计目标是简化网络爬虫的开发过程，使得程序员能够快速构建自己的爬虫项目，而不需要过于关注底层的实现细节。在Java社区中，WebMagic因其易用性和灵活性而备受青睐。 1. **Java编程基础** 在使用WebMagic之前，开发者需要具备基本的Java编程能力。Java是一种面向对象的编程语言，具有良好的跨平台性，被广泛应用于各种软件开发，包括Web应用程序和爬虫项目。了解类、对象、方法、继承、封装、多态等概念是必要的。 2. **网络爬虫原理** WebMagic的工作原理基于HTTP协议，通过发送请求到目标网站获取HTML响应，然后解析页面内容，提取所需数据。理解HTTP请求和响应机制，以及HTML结构对于正确解析网页至关重要。 3. **网页解析技术** WebMagic依赖于Jsoup库进行HTML解析，因此熟悉Jsoup的API，如选择器（CSS选择器）和DOM操作，是提取网页数据的基础。此外，对于复杂的动态网页，可能还需要了解JavaScript执行和页面渲染的知识。 4. **异步编程与多线程** 为了提高爬取效率，WebMagic支持异步处理和多线程。开发者需要理解Java的并发编程概念，如ExecutorService、Future、Callable等，以及如何控制线程池大小和任务调度。 5. **请求管理与反爬策略** WebMagic内置了请求管理器，用于处理重试、延时、IP代理等策略，以避免被目标网站封禁。开发者应了解常见的反爬策略，如User-Agent、Cookie、验证码识别等，并能配置相应的应对措施。 6. **数据存储与处理** 爬取的数据通常需要存储起来，WebMagic支持多种存储方式，如文件、数据库、搜索引擎等。开发者需熟悉至少一种数据存储技术，如MySQL、MongoDB、Elasticsearch等，并懂得如何进行数据清洗和预处理。 7. **插件化设计** WebMagic采用模块化和插件化设计，允许用户自定义下载器、处理器、管道等组件。理解这种设计模式有助于扩展和定制爬虫功能。 8. **日志系统** 日志系统在爬虫开发中扮演重要角色，帮助调试和监控。WebMagic集成了Log4j，开发者需要了解日志级别、格式化和日志分析的基本知识。 9. **持续集成与测试** 对于大型爬虫项目，持续集成和自动化测试是必需的。了解Maven或Gradle等构建工具，以及JUnit等测试框架，可以提高项目的可维护性。 10. **使用须知** 根据提供的"使用须知.txt"，开发者应详细阅读文档，了解安装、配置、运行和调试WebMagic的步骤，遵循最佳实践，以确保顺利进行项目开发。 WebMagic提供了一个强大且易于上手的Java爬虫框架，结合扎实的Java基础和爬虫知识，开发者可以高效地构建自己的网络爬虫项目，处理各种网页抓取需求。通过不断学习和实践，可以提升对WebMagic的理解和运用，从而在数据采集领域更加游刃有余。

资源推荐

资源详情

资源评论

收起资源包目录

WebMagic (Java爬虫框架).zip （284个子文件）

.gitignore 71B

Github.groovy 545B

mock-github.html 112KB

mock-webmagic.html 2KB

package.html 149B

package.html 106B

package.html 104B

package.html 96B

package.html 90B

package.html 88B

package.html 73B

package.html 70B

package.html 58B

package.html 56B

config.ini 480B

config.ini 362B

XpathSelectorTest.java 102KB

MockGithubDownloader.java 72KB

ProcessorBenchmark.java 59KB

Spider.java 21KB

PageModelExtractor.java 15KB

HttpClientDownloaderTest.java 13KB

Site.java 10KB

Xpath2Selector.java 7KB

WebDriverPool.java 7KB

ScriptConsole.java 6KB

FileCacheQueueScheduler.java 6KB

Page.java 6KB

HttpClientGenerator.java 6KB

HttpClientDownloader.java 5KB

HttpUriRequestConverter.java 5KB

PageModelExtractorTest.java 5KB

PhantomJSDownloader.java 5KB

MultiPagePipeline.java 4KB

BasicTypeFormatter.java 4KB

Request.java 4KB

HtmlNode.java 4KB

RedisPriorityScheduler.java 4KB

SpiderTest.java 4KB

SpiderMonitor.java 4KB

RedisScheduler.java 4KB

ScriptProcessor.java 4KB

UrlUtils.java 4KB

SeleniumDownloader.java 3KB

ZipCodePageProcessor.java 3KB

OOSpider.java 3KB

AlexanderMcqueenGoodsProcessor.java 3KB

Selectable.java 3KB

ModelPageProcessor.java 3KB

SmartContentSelector.java 3KB

BloomFilterDuplicateRemoverTest.java 3KB

AbstractSelectable.java 3KB

PatternProcessorExample.java 3KB

RegexSelector.java 3KB

Html.java 3KB

ExtractRule.java 3KB

CssSelector.java 3KB

CountableThreadPool.java 3KB

SpiderTest.java 3KB

SimpleHttpClientTest.java 3KB

GithubRepo.java 3KB

ModelPageProcessorTest.java 2KB

News163.java 2KB

HttpRequestBody.java 2KB

SpiderStatus.java 2KB

DoubleKeyMap.java 2KB

ZhihuPageProcessor.java 2KB

QuickStarter.java 2KB

HtmlTest.java 2KB

PriorityScheduler.java 2KB

GithubRepo.java 2KB

CharsetUtils.java 2KB

ComboExtract.java 2KB

JsonPathSelectorTest.java 2KB

DelayQueueScheduler.java 2KB

PlainText.java 2KB

BloomFilterDuplicateRemover.java 2KB

PrioritySchedulerTest.java 2KB

ObjectFormatterBuilder.java 2KB

FilePipeline.java 2KB

ExtractBy.java 2KB

RedisPrioritySchedulerTest.java 2KB

DiaoyuwengProcessor.java 2KB

ScriptProcessorBuilder.java 2KB

CustomRedirectStrategy.java 2KB

GithubRepoApi.java 2KB

DuplicateRemovedSchedulerTest.java 2KB

AmanzonPageProcessor.java 2KB

BaiduBaikePageProcessor.java 2KB

PhantomJSPageProcessor.java 2KB

MamacnPageProcessor.java 2KB

SinaBlogProcessor.java 2KB

JsonFilePageModelPipeline.java 2KB

BaiduBaike.java 2KB

DiandianBlogProcessor.java 2KB

FilePageModelPipeline.java 2KB

ResultItems.java 2KB

UrlUtilsTest.java 2KB

ModelPipeline.java 2KB

共 284 条

![logo](http://webmagic.io/images/logo.jpeg) [Readme in Chinese](https://github.com/code4craft/webmagic/tree/master/README-zh.md) [![Build Status](https://travis-ci.org/code4craft/webmagic.png?branch=master)](https://travis-ci.org/code4craft/webmagic) >A scalable crawler framework. It covers the whole lifecycle of crawler: downloading, url management, content extraction and persistent. It can simplify the development of a specific crawler. ## Features: * Simple core with high flexibility. * Simple API for html extracting. * Annotation with POJO to customize a crawler, no configuration. * Multi-thread and Distribution support. * Easy to be integrated. ## Install: Add dependencies to your pom.xml: ```xml <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-core</artifactId> <version>0.7.1</version> </dependency> <dependency> <groupId>us.codecraft</groupId> <artifactId>webmagic-extension</artifactId> <version>0.7.1</version> </dependency> ``` WebMagic use slf4j with slf4j-log4j12 implementation. If you customized your slf4j implementation, please exclude slf4j-log4j12. ```xml <exclusions> <exclusion> <groupId>org.slf4j</groupId> <artifactId>slf4j-log4j12</artifactId> </exclusion> </exclusions> ``` ## Get Started: ### First crawler: Write a class implements PageProcessor. For example, I wrote a crawler of github repository infomation. ```java public class GithubRepoPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(1000); @Override public void process(Page page) { page.addTargetRequests(page.getHtml().links().regex("(https://github\\.com/\\w+/\\w+)").all()); page.putField("author", page.getUrl().regex("https://github\\.com/(\\w+)/.*").toString()); page.putField("name", page.getHtml().xpath("//h1[@class='public']/strong/a/text()").toString()); if (page.getResultItems().get("name")==null){ //skip this page page.setSkip(true); } page.putField("readme", page.getHtml().xpath("//div[@id='readme']/tidyText()")); } @Override public Site getSite() { return site; } public static void main(String[] args) { Spider.create(new GithubRepoPageProcessor()).addUrl("https://github.com/code4craft").thread(5).run(); } } ``` * `page.addTargetRequests(links)` Add urls for crawling. You can also use annotation way: ```java @TargetUrl("https://github.com/\\w+/\\w+") @HelpUrl("https://github.com/\\w+") public class GithubRepo { @ExtractBy(value = "//h1[@class='public']/strong/a/text()", notNull = true) private String name; @ExtractByUrl("https://github\\.com/(\\w+)/.*") private String author; @ExtractBy("//div[@id='readme']/tidyText()") private String readme; public static void main(String[] args) { OOSpider.create(Site.me().setSleepTime(1000) , new ConsolePageModelPipeline(), GithubRepo.class) .addUrl("https://github.com/code4craft").thread(5).run(); } } ``` ### Docs and samples: Documents: [http://webmagic.io/docs/](http://webmagic.io/docs/) The architecture of webmagic (refered to [Scrapy](http://scrapy.org/)) ![image](http://code4craft.github.io/images/posts/webmagic.png) There are more examples in `webmagic-samples` package. ### Lisence: Lisenced under [Apache 2.0 lisence](http://opensource.org/licenses/Apache-2.0) ### Thanks: To write webmagic, I refered to the projects below : * **Scrapy** A crawler framework in Python. [http://scrapy.org/](http://scrapy.org/) * **Spiderman** Another crawler framework in Java. [http://git.oschina.net/l-weiwei/spiderman](http://git.oschina.net/l-weiwei/spiderman) ### Mail-list: [https://groups.google.com/forum/#!forum/webmagic-java](https://groups.google.com/forum/#!forum/webmagic-java) [http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988](http://list.qq.com/cgi-bin/qf_invite?id=023a01f505246785f77c5a5a9aff4e57ab20fcdde871e988) QQ Group: 373225642 ### Related Project * <a href="https://github.com/gsh199449/spider" target="_blank">Gather Platform</a> A web console based on WebMagic for Spider configuration and management.

评论收藏

内容反馈

版权申诉