一个基于webmagic框架二次开发的java爬虫框架实战


-
一个基于webmagic框架二次开发的java爬虫框架实战,已实现能爬取腾讯,搜狐,今日头条(单独集成功能)等资讯内容,配合elasticsearch框架用法,实现了自动爬虫,已投入线上生产使用
358KB
WebMagic是一个简单灵活的Java爬虫框架
2019-08-08WebMagic是一个简单灵活的Java爬虫框架。基于WebMagic,你可以快速开发出一个高效、易维护的爬虫
3.8MB
基于WebMagic框架的依赖jar包
2020-04-04基于WebMagic爬虫框架的全部依赖jar包,下载即用,如何使用可以查看我的博客有详细的讲解基于WebMagic爬虫框架的爬虫开发。
68KB
webporter是一个基于webmagic的Java爬虫应用
2019-08-08webporter 是一个基于垂直爬虫框架 webmagic 的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。
14.49MB
WebMagic(Java)简单爬虫实现,实现抓取数据,并导出到excel文件
2016-03-16WebMagic(Java)爬虫实现,实现数据爬取,并导出到excel文件
134KB
一个敏捷强大的Java爬虫框架SeimiCrawler.zip
2019-07-19SeimiCrawler An agile,powerful,distributed crawler framework. SeimiCrawler的目标是成为Java世界最好用最实用的爬虫框架。简介
543KB
java爬虫爬取百度图片
2017-04-18java爬虫爬取百度图片源码
11.52MB
Java网络爬虫源码
2016-12-23由于项目需要,特研究了一段时间关于java爬虫的相关技术,发现一个比较好用的爬虫框架--WebMagic,只需少量代码即可实现一个爬虫,本项目就是基于它的一个简单实现,导入项目即可运行,项目只有两个类
64.88MB
爬虫基于Springboot+WebMagic+Mybatis+多数据源
2018-11-30闲来无事最近写了一个全新的爬虫框架WebMagic整合springboot的爬虫程序,不清楚WebMagic的童鞋可以先查看官网了解什么是Webmagic,顺便说说用springboot时遇到的一些坑
1.54MB
webmagic 中文开发文档
2017-12-10webmagic的中文文档,里面详细的介绍了webmagic的各个模块的知识点和简单的例子
5.7MB
webmagic需要的jar包
2018-09-28Java爬虫使用框架webmagic,如果创建maven项目只是创建普通的Java项目就需要导入相关的jar包
132.96MB
基于Lucene+webmagic实现的垂直搜索引擎
2018-06-29本实例实现了lucene+webmagic实现了一个基于交通领域的搜索引擎,前端使用bootstrap,使用时先运行索引,将索引建立
1.99MB
java 爬虫工具,可存文本,也可存数据库
2018-07-11基于WebMagic开发的爬虫小工具,可以直接存放文本信息,也可以直接存放到MySQL数据库里。代码简单详细。可自行研究修改。
21KB
webmagic爬虫项目 代码案例基于maven项目构建
2018-04-29webmagic爬虫项目 代码案例基于maven项目构建 。使用说明:SpiderOschinaServiceImpl 的main方法
6KB
webMagic爬虫抓取某个博客全部文章名称
2016-09-05webMagic爬虫抓取某个博客全部文章名称,简单列子,可以做参考
495KB
Webmagic Spider简单框架流程图
2017-12-06原文链接:http://blog.csdn.net/yasukusury/article/details/78735589
348KB
最简单的爬虫-WebMagic 0.73 源码
2017-12-04最简单的爬虫设置,最好二次开发的爬虫 WebMagic 框架,它提供简单灵活的API,只需少量代码即可实现一个爬虫。webmagic采用完全模块化的设计,功能覆盖整个爬虫的生命周期(链接提取、页面下载
5.7MB
webmagic-0.7.3-all.tar.gz
2017-10-21webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。 最新版:WebMagic-0.7.3 Maven依赖: <dependency> <grou
459KB
webmagic爬虫
2017-12-20里面的task包下,是所有的爬虫程序,每个类代表一个城市的网站,学习的朋友可以先看成都,自贡,攀枝花的代码,自己亲自写的。主要使用webmagic,及xpath,css,jsoup,正则。解析页面
363KB
spring boot 整合爬虫框架webmagic,并将数据存储到数据库
2020-10-29本测试Demo共包含两个网站,涉及到三个数据页面的操作,三个Controller层由浅及深,可以更快入手,数据才存储数据库的时候,做了重复性的判断,避免重复添加。
22KB
springboot+webmagic+mybatis-plus架构 小说网站爬虫
2019-07-02文件是本人将webmagic、mybatis-plus、HikariCP、hutool等开源项目到一个springboot项目中搭建起来的一个爬虫框架,使用了Spring的@Scheduled注解开启
90KB
springboot+webmagic实现java爬虫jdbc及mysql的方法
2020-08-27今天小编就为大家分享一篇springboot+webmagic实现java爬虫jdbc及mysql的方法,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
160.27MB
开源通用爬虫框架YayCrawler.zip
2019-07-18YayCrawler是一个基于WebMagic开发的分布式通用爬虫框架,开发语言是Java。我们知道目前爬虫框架很多,有简单的,也有复杂的,有轻 量型的,也有重量型的。您也许会问:你这个爬虫框架的优势
354KB
web爬虫WebMagic-0.7.3源代码及示例
2017-11-02web爬虫WebMagic-0.7.3源代码及示例,在项目中一直在使用该版本,暂没发现bug。
343KB
webmagic垂直爬虫 v0.7.2
2020-09-28为您提供webmagic垂直爬虫下载,webmagic是一个开源的Java垂直爬虫框架,目标是简化爬虫的开发流程,让开发者专注于逻辑功能的开发。webmagic的核心非常简单,但是覆盖爬虫的整个流程,
4KB
豆瓣电影及电视剧影视剧信息爬取
2017-06-06Java webmagic豆瓣影视爬虫
2.86MB
爬虫-webmagic学习总结
2017-11-13爬虫-webmagic学习总结文档,主要介绍本人学习爬虫的小总结
7.3MB
webmagic全套资料(包含最新版 jar包,源代码,中文文档)
2017-11-11是webmagic爬虫框架的最新全套资料,学习java爬虫必备资料。(包括jar包,源代码,源代码中有样例,中文文档说明等)
6.15MB
新浪新闻爬虫
2015-12-03新浪新闻的爬虫,按类别分类,测试的是军事类,只需要修改url就可以爬取其他类别。使用webmgic框架开发,垂直爬虫,爬取后以文件形式保存。
350KB
webmagic:Java的可伸缩Web爬虫框架-源码
2021-02-02可扩展的搜寻器框架。 它涵盖了爬虫的整个生命周期:下载,URL管理,内容提取和持久性。 它可以简化特定搜寻器的开发。 特征: 核心简单,灵活性高。 用于html提取的简单API。 使用POJO进行注释
1.11MB
webMagic网络爬虫
2019-04-23NULL 博文链接:https://username2.iteye.com/blog/2253349
-
学院
python自动化管理文件和文件夹
python自动化管理文件和文件夹
-
博客
随便阅读
随便阅读
-
学院
xxljob源码分析
xxljob源码分析
-
博客
Logistics回归系数解读
Logistics回归系数解读
-
下载
2020-2025年中国日用陶瓷行业市场深度调研及发展战略研究报告.pdf
2020-2025年中国日用陶瓷行业市场深度调研及发展战略研究报告.pdf
-
学院
app软件测试全栈系列精品课程
app软件测试全栈系列精品课程
-
下载
2020-2025年中国轻轨行业市场深度调研及发展战略研究报告.pdf
2020-2025年中国轻轨行业市场深度调研及发展战略研究报告.pdf
-
学院
MySQL 查询与高级查询(多表、嵌套和正则表达式)
MySQL 查询与高级查询(多表、嵌套和正则表达式)
-
下载
图片软件ACDSEE5.0.rar
图片软件ACDSEE5.0.rar
-
下载
marvell_aqtion_2.2.2.2.驱动
marvell_aqtion_2.2.2.2.驱动
-
学院
C#Winform桌面开发编程上位机基础入门
C#Winform桌面开发编程上位机基础入门
-
博客
剑指 Offer 17. 打印从1到最大的n位数
剑指 Offer 17. 打印从1到最大的n位数
-
学院
Cocos Creator游戏开发-合成大西瓜 CocosCreat
Cocos Creator游戏开发-合成大西瓜 CocosCreat
-
学院
【拯救者 】数据库系统概论速成
【拯救者 】数据库系统概论速成
-
学院
VMware vSphere ESXi 7 精讲/VCSA/VSAN
VMware vSphere ESXi 7 精讲/VCSA/VSAN
-
博客
PHP实现类似百度搜索自动完成(代码简单)
PHP实现类似百度搜索自动完成(代码简单)
-
博客
smtp是什么邮件的协议
smtp是什么邮件的协议
-
博客
Tap-News project
Tap-News project
-
下载
SM2246EN_0508A.zip
SM2246EN_0508A.zip
-
博客
IO之文件夹遍历删除(递归)
IO之文件夹遍历删除(递归)
-
下载
2020-2025年中国通信PCB行业市场深度调研及发展战略研究报告.pdf
2020-2025年中国通信PCB行业市场深度调研及发展战略研究报告.pdf
-
博客
Python 数据类型
Python 数据类型
-
学院
CCNA_CCNP 思科网络认证 《 配置路由器作为DHCP服务器;无
CCNA_CCNP 思科网络认证 《 配置路由器作为DHCP服务器;无
-
学院
MySQL 数据类型和运算符
MySQL 数据类型和运算符
-
学院
FFmpeg4.3黄金系列课程:c++版
FFmpeg4.3黄金系列课程:c++版
-
博客
charles使用
charles使用
-
博客
smtp是什么邮件的协议
smtp是什么邮件的协议
-
学院
2021年软考系统规划与管理师-下午历年真题解析视频课程
2021年软考系统规划与管理师-下午历年真题解析视频课程
-
下载
2020-2025年中国磷肥行业市场深度调研及发展战略研究报告.pdf
2020-2025年中国磷肥行业市场深度调研及发展战略研究报告.pdf
-
下载
2020-2025年中国铁路机车检测检修行业市场深度调研及发展战略研究报告.pdf
2020-2025年中国铁路机车检测检修行业市场深度调研及发展战略研究报告.pdf