没有合适的资源?快使用搜索试试~ 我知道了~
java8集合源码分析-spider-tangpoem:优雅的使用轻量级爬虫框架WebMagic
共34个文件
java:27个
properties:2个
xml:2个
需积分: 23 1 下载量 19 浏览量
2021-06-04
18:04:35
上传
评论
收藏 77KB ZIP 举报
温馨提示
java8 集合源码分析 spider-tangpoem项目 优雅的使用WebMagic框架,爬取唐诗别苑网的诗人诗歌数据 涉及动态加载技术的选择:PhantomJS、Selenium、HtmlUnit和JS引擎 由于页面爬取到的是非结构化数据,所以数据保存到MongoDB。 更新 2019.6.24 项目放到github上,进行开源 2019.6.21 配置文件补充两个重要新的参数:sleepTime和socketTimeOut,直接使用默认值,效果和以往相同,也可以根据实际状况调整该参数,详细参考 spider.properties 文件 技术准备 IDE:IntelliJ IDEA 2018.3.5 JDK版本:1.8.0_181 数据库:MongoDB 4.0.10 涉及技术: HtmlUnit网页分析工具包,模拟浏览器运行 PhantomJS JavaScriptEngine MongoDB ORM框架 Morphia JUC:Java线程池、线程协作、线程安全类 日志log4j 1.7.25 Java反射 单例模式、工厂模式、代理模式 项目结构 biz包:包括页面爬取逻辑的
资源推荐
资源详情
资源评论
收起资源包目录
spider-tangpoem-master.zip (34个子文件)
spider-tangpoem-master
.gitignore 139B
src
main
resources
crypto-js.min.js 47KB
mongodb.properties 363B
spider.properties 324B
log4j.xml 2KB
java
pers
kanarien
spider
entity
PoemDetails.java 7KB
PoetDetails.java 10KB
biz
processor
PoemDetailsDynamicPageProcessor.java 4KB
PoetNamePageProcessor.java 2KB
PoetDetailsPageProcessor.java 6KB
PoemDetailsStaticPageProcessor.java 3KB
PoetIdPageProcessor.java 1KB
pipeline
PoetDetailsPipeline.java 954B
PoemDetailsPipeline.java 972B
dao
PoemDetailsDao.java 665B
PoetDetailsDao.java 517B
impl
PoetDetailsDaoImpl.java 1KB
PoemDetailsDaoImpl.java 1KB
util
MongoDBUtils.java 2KB
MainProxy.java 2KB
WebClientFactory.java 2KB
HtmlUnitDownloader.java 4KB
JSEngineFactory.java 2KB
PropertiesUtils.java 3KB
SiteFactory.java 1KB
Main.java 6KB
vo
MongoDBConfig.java 4KB
SpiderConfig.java 1KB
common
PropertiesPair.java 210B
common
Constant.java 14KB
test
java
NashornTest.java 28KB
HtmlUnitTest.java 1KB
pom.xml 3KB
README.md 8KB
共 34 条
- 1
资源评论
weixin_38722721
- 粉丝: 5
- 资源: 928
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功