# NewSpitter
基于WebClient实现的爬虫,可以抓取JS动态生成的内容
### 说明文档:
### 新版说明
因为littleSpitter抓取页面时,只能抓取静态页面,而不能抓取动态生成的内容,如:ajax.因此新版的爬虫采用htmlunit,htmlunit是Java版web浏览器,它能模拟浏览器请求,获得动态生成的内容。
### 技术选型
信息的抓取: httpunit-2.18.jar
信息的抽取: jsoup-1.8.3.jar
JSON的处理: fastjson-1.2.6.jar
日志: logback-classic-1.1.3.jar
### 各包说明:
1. com.bigdata.spitter.main 程序入口,程序运行入口
2. com.bigdata.spitter 一些基础类与页面的抓取
3. com.bigdata.spitter.processor 负责页面的抓取与解析
4. com.bigdata.spitter.scheduler 负责管理待抓取的URL,防止重复抓取
5. com.bigdata.spitter.storage 解析信息的存储
### 配置:配置是通过resource文件夹下的config.properties文件配置,具体含义看其注解。logback.xml为日志配置
### 抓取信息:智联招聘的职位信息,例子:http://jobs.zhaopin.com/136251293251822.htm
具体信息:
- 职位名称
- 职位标签
- 职位薪水
- 职位月薪
- 工作地点
- 发布日期
- 工作性质
- 工作经验
- 最低学历
- 招聘人数
- 职位类别
- 职位描述
- 工作地址
- 公司:公司名称、公司规模、公司性质、公司行业:互联网/电子商务公司、主页、公司地址、公司介绍
### 进度(持续更新):暂时完成链接的抽取,下一步进行实时抓取
### PS
data.txt已经抓取好的数据
Yuki-^_^
- 粉丝: 3106
- 资源: 3877
最新资源
- LC-VCO电感电容压控振荡器,很适合新手入门锁相环 pll cppll 有现成的testbench,新手可以先单独仿真电感L,电容C的各项参考曲线,比如实部,虚部阻抗,Rs,Rp值,还有Q值,容值电
- 10月最新美化更新情侣飞行棋网站源码情侣小游戏含修改教程等
- 基于Python的图书管理系统控制台应用
- 永磁同步电机(PMSM)采用超扭滑模观测器(STSMO)的无差电流预测控制(DPCC)参数扰动观测器方法matlab仿真
- Jsoup 实现的java爬虫
- LC-VCO电感电容压控振荡器,很适合新手入门锁相环 pll cppll 有现成的testbench,新手可以先单独仿真电感L,电容C的各项参考曲线,比如实部,虚部阻抗,Rs,Rp值,还有Q值,容值电
- ISO21111 1-5规范
- 调优-基于鲲鹏平台的软硬件优化实践
- gbaseV8s-JDBC驱动包
- 医疗器械证办理时所需的QM质量手册模版
- 西门子S7-1200 1500动态加密功能块程序,可以设置停机运行时间,时间到达设备停止运行,专门针对不守信用的客户使用 博图V16版本,有具体使用视频教程, 里面有两个功能块,一个是动态加密的,一个
- 通过python和transformers库进行感情分析.zip
- class文件反编译图形化工具
- 2024安装最新版的VMware过程
- 环形振荡器 ring vco oscillator 锁相环 pll PLL 压控振荡器 振荡器 集成电路 芯片设计 模拟ic设计 1没基础的同学,首先学习cadence管方 电路+仿真教学
- 三电平半桥LLC谐振变器电路仿真 采用频率控制方式 引入一定的移相角度(比较小) 驱动信号采用CMPA CMPB方式产生 增计数模式(参照DSP PWM生成) 相比普通半桥LLC开关管电压应力小 输出
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈