# 基于java实现网络爬虫源码
爬虫实现原理
网络爬虫基本技术处理
网络爬虫是数据采集的一种方法,实际项目开发中,通过爬虫做数据采集一般只有以下几种情况:
1) 搜索引擎
2) 竞品调研
3) 舆情监控
4) 市场分析
网络爬虫的整体执行流程:
1) 确定一个(多个)种子网页
2) 进行数据的内容提取
3) 将网页中的关联网页连接提取出来
4) 将尚未爬取的关联网页内容放到一个队列中
5) 从队列中取出一个待爬取的页面,判断之前是否爬过。
6) 把没有爬过的进行爬取,并进行之前的重复操作。
7) 直到队列中没有新的内容,爬虫执行结束。
这样完成爬虫时,会有一些概念必须知道的:
1) 深度(depth):一般来说,表示从种子页到当前页的打开连接数,一般建议不要超过5层。
2) 广度(宽度)优先和深度优先:表示爬取时的优先级。建议使用广度优先,按深度的层级来顺序爬取。
没有合适的资源?快使用搜索试试~ 我知道了~
温馨提示
java爬虫 爬虫实现原理 网络爬虫基本技术处理 网络爬虫是数据采集的一种方法,实际项目开发中,通过爬虫做数据采集一般只有以下几种情况: 1) 搜索引擎 2) 竞品调研 3) 舆情监控 4) 市场分析 网络爬虫的整体执行流程: 1) 确定一个(多个)种子网页 2) 进行数据的内容提取 3) 将网页中的关联网页连接提取出来 4) 将尚未爬取的关联网页内容放到一个队列中 5) 从队列中取出一个待爬取的页面,判断之前是否爬过。 6) 把没有爬过的进行爬取,并进行之前的重复操作。 7) 直到队列中没有新的内容,爬虫执行结束。 这样完成爬虫时,会有一些概念必须知道的: 1) 深度(depth):一般来说,表示从种子页到当前页的打开连接数,一般建议不要超过5层。 2) 广度(宽度)优先和深度优先:表示爬取时的优先级。建议使用广度优先,按深度的层级来顺序爬取。 下面先实现一个单网页数据提取的功能。 使用的技术可以有以下几类: 1) 原生代码实现: a) URL类 2) 使用第三方的URL库 a) HttpClient库 3) 开源爬虫框架 a) Heritri 更多请下载查看
资源推荐
资源详情
资源评论
收起资源包目录
zhizhu.rar (57个子文件)
zhizhu
nbproject
project.properties 2KB
genfiles.properties 473B
build-impl.xml 46KB
project.xml 1KB
ant-deploy.xml 2KB
private
private.xml 211B
private.properties 2KB
src
lib
commons-logging-1.0.4.jar 37KB
htmllexer.jar 68KB
commons-httpclient-3.1.jar 298KB
htmlparser.jar 281KB
commons-codec-1.3.jar 46KB
java
com
sohu
servlet
GetNewsServlet.java 3KB
SohuNews.java 10KB
crawler
Queue.java 620B
Crawler.java 2KB
LinkFilter.java 231B
LinkParser.java 4KB
LinkDB.java 1KB
NewsToDB.java 270B
bean
NewsBean.java 2KB
db
ConnectionManager.java 2KB
conf
MANIFEST.MF 25B
web
WEB-INF
web.xml 790B
index.jsp 750B
detail.jsp 920B
META-INF
context.xml 85B
readme.txt 2KB
news.sql 440B
dist
Sohu.war 1.05MB
build
web
WEB-INF
classes
.netbeans_automatic_build 0B
com
sohu
servlet
GetNewsServlet.class 2KB
GetNewsServlet$1.class 969B
SohuNews.class 8KB
SohuNews$1.class 885B
crawler
LinkParser$2.class 796B
LinkParser$1.class 819B
LinkDB.class 2KB
Queue.class 1KB
LinkFilter.class 203B
Crawler.class 2KB
NewsToDB.class 453B
LinkParser.class 3KB
Crawler$1.class 779B
bean
NewsBean.class 1KB
db
ConnectionManager.class 2KB
lib
htmllexer.jar 68KB
htmlparser.jar 281KB
mysql-connector-java-5.1.6-bin.jar 687KB
web.xml 790B
index.jsp 750B
detail.jsp 1KB
META-INF
context.xml 85B
MANIFEST.MF 25B
test
com
sohu
SohuNewsTest.java 1KB
README.md 1KB
build.xml 3KB
共 57 条
- 1
资源评论
- Young_Money_No12023-11-0809年的jsp代码?浪费积分 #毫无价值
大雄是个程序员
- 粉丝: 2791
- 资源: 571
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功