/**
*
* @author Administrator
*
* JavaSpider 1.6 版本
*
* 1,对所有的目标网址进行抽取,得到目标java文件,也就是我们需要的java源文件;
* 2,将所有的java源文件保存到对应的java文件中,保存到本地硬盘的指定目录下;
* 3,我们需要一个java工具类,或者方法,用来生成唯一的java源文件名称;
*
*/
到这里,我们通过这几个修改和完善的版本,基本上可以完成实现了从指定站点获取源代码的功能。
一,新建java web项目
项目名称:JavaSpider_2016
版本:JavaSpider 1.6
二,项目采用servlet + MySQL 5.5
jar包所在位置:/JavaSpider_2016/WebRoot/WEB-INF/lib
配置文件所在位置:/JavaSpider_2016/WebRoot/WEB-INF/web.xml
图片所在位置:/JavaSpider_2016/WebRoot/images
CSS文件所在位置:/JavaSpider_2016/WebRoot/CSS
三,数据库建表语句
数据库.txt文件中
四,访问项目首页
http://localhost:8890/JavaSpider_2016
或者
http://localhost:8890/JavaSpider_2016/index.jsp
1,如果不是在本机测试,请把localhost换成服务器所在的电脑的IP地址
2,tomcat端口如果不是8890,请把8890改成你的tomcat的端口
没有合适的资源?快使用搜索试试~ 我知道了~
java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版
共76个文件
java:44个
jar:14个
jsp:8个
4星 · 超过85%的资源 需积分: 20 73 下载量 9 浏览量
2016-01-17
01:31:35
上传
评论
收藏 5.12MB ZIP 举报
温馨提示
java实现的网页爬虫1.6版本聚焦爬虫抽取网页完整版 1,几个版本合集; 2,基本上可以完成抽取指定站点的源代码的功能; 3,网址保存到数据库中; 4,源代码写入java文件,保存到硬盘指定目录;
资源推荐
资源详情
资源评论
收起资源包目录
JavaSpider_1.1到1.6版本-完整版.zip (76个子文件)
JavaSpider_1.1到1.6版本-完整版
项目首页截图-各版本对比.jpg 46KB
JavaSpider1.6版本说明文档.txt 1009B
src
com
spider
dao
JavaSpider_1_5_Dao.java 829B
JavaSpider_1_4_Dao.java 2KB
JavaSpider_1_3_Dao.java 334B
JavaSpider_1_6_Dao.java 718B
impl
JavaSpider_1_6_DaoImpl.java 2KB
JavaSpider_1_3_DaoImpl.java 3KB
JavaSpider_1_5_DaoImpl.java 5KB
JavaSpider_1_4_DaoImpl.java 9KB
Model
Url.java 1KB
Temp_url.java 1KB
Target_url.java 1KB
servlet
SaveToDifferentDatabase_JavaSpider_1_5_Servlet.java 6KB
GetAllUrl_JavaSpider_1_3_Servlet.java 5KB
SaveToFile_JavaSpider_1_6_Servlet.java 5KB
GetNextUrl_JavaSpider_1_4_Servlet.java 9KB
SaveToFileServlet.java 4KB
java
JavaSpiderBase_1_3.java 334B
JavaSpider_1_4_URLParser.java 4KB
JavaSpider_1_6_HTMLParser.java 5KB
JavaSpider_1_5_URLParser.java 3KB
JavaSpider_1_3.java 4KB
JavaSpider_1_5_HTMLParser.java 4KB
JavaSpider_1_3_HTMLParser.java 4KB
JavaSpider_1_4_HTMLParser.java 6KB
JavaSpiderBase_1_4.java 2KB
JavaSpider_1_6_HTMLParserUtil_GenerateFileName.java 1KB
JavaSpider_1_6_URLParser.java 4KB
JavaSpider_1_6.java 5KB
JavaSpider_1_3_URLParser.java 4KB
JavaSpider_1_4.java 5KB
JavaSpiderBase_1_6.java 709B
JavaSpider_1_5.java 3KB
Test.java 147B
JavaSpiderBase_1_5.java 336B
JavaSpider_1_6_HTMLParserUtil_Escape.java 1009B
service
JavaSpider_1_6_Service.java 723B
JavaSpider_1_5_Service.java 837B
JavaSpider_1_4_Service.java 2KB
JavaSpider_1_3_Service.java 344B
impl
JavaSpider_1_5_ServiceImpl.java 2KB
JavaSpider_1_6_ServiceImpl.java 2KB
JavaSpider_1_4_ServiceImpl.java 4KB
JavaSpider_1_3_ServiceImpl.java 1KB
util
JavaSpider_JDBC.java 2KB
项目截图-1.6版本.jpg 46KB
WebRoot
images
zebratable.png 5KB
body.jpg 14KB
WEB-INF
web.xml 4KB
lib
fluent-hc-4.5.1.jar 31KB
httpcore-4.4.4.jar 319KB
httpclient-cache-4.5.1.jar 155KB
httpclient-win-4.5.1.jar 17KB
httpclient-4.5.1.jar 716KB
httpcore-4.4.3.jar 319KB
mysql-connector-java-5.1.10-bin.jar 707KB
htmlparser1_6.jar 281KB
jna-4.1.0.jar 893KB
jna-platform-4.1.0.jar 1.4MB
commons-codec-1.9.jar 258KB
commons-logging-1.2.jar 60KB
httpmime-4.5.1.jar 40KB
org.apache.httpcomponents.httpclient_4.5.1.jar 1.19MB
spider
SaveToFile_JavaSpider_1_6.jsp 4KB
Success.jsp 1KB
Error.jsp 903B
GetAllUrl_JavaSpider_1_3.jsp 2KB
SpiderIndex.jsp 1KB
GetNextUrl_JavaSpider_1_4.jsp 3KB
SaveToDifferentDatabase_JavaSpider_1_5.jsp 3KB
CSS
myapplications.css 3KB
SSH.css 49KB
index.jsp 3KB
java文件截图.jpg 99KB
数据库.txt 853B
共 76 条
- 1
资源评论
- to_yon2017-05-24只能通过url读取页面内容,太简单了
- 欧阳志毅2016-11-10不错是我可以参考修改的东西
- littleprince_hj2018-05-03资源找不到了
春秋战国程序猿
- 粉丝: 645
- 资源: 11
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功