基于java实现网络爬虫(蜘蛛)源码资源-CSDN文库

共57个文件

class：15个

java：11个

xml：9个

项目源码

java源码

毕业设计

课程设计

1星需积分: 1 87 浏览量 2023-02-20 15:26:27 上传评论收藏 2.55MB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

zhizhu.rar （57个子文件）

zhizhu

nbproject

project.properties 2KB

genfiles.properties 473B

build-impl.xml 46KB

project.xml 1KB

ant-deploy.xml 2KB

private

private.xml 211B

private.properties 2KB

src

lib

commons-logging-1.0.4.jar 37KB

htmllexer.jar 68KB

commons-httpclient-3.1.jar 298KB

htmlparser.jar 281KB

commons-codec-1.3.jar 46KB

java

com

sohu

servlet

GetNewsServlet.java 3KB

SohuNews.java 10KB

crawler

Queue.java 620B

Crawler.java 2KB

LinkFilter.java 231B

LinkParser.java 4KB

LinkDB.java 1KB

NewsToDB.java 270B

bean

NewsBean.java 2KB

ConnectionManager.java 2KB

conf

MANIFEST.MF 25B

web

WEB-INF

web.xml 790B

index.jsp 750B

detail.jsp 920B

META-INF

context.xml 85B

readme.txt 2KB

news.sql 440B

dist

Sohu.war 1.05MB

build

web

WEB-INF

classes

.netbeans_automatic_build 0B

com

sohu

servlet

GetNewsServlet.class 2KB

GetNewsServlet$1.class 969B

SohuNews.class 8KB

SohuNews$1.class 885B

crawler

LinkParser$2.class 796B

LinkParser$1.class 819B

LinkDB.class 2KB

Queue.class 1KB

LinkFilter.class 203B

Crawler.class 2KB

NewsToDB.class 453B

LinkParser.class 3KB

Crawler$1.class 779B

bean

NewsBean.class 1KB

ConnectionManager.class 2KB

lib

htmllexer.jar 68KB

htmlparser.jar 281KB

mysql-connector-java-5.1.6-bin.jar 687KB

web.xml 790B

index.jsp 750B

detail.jsp 1KB

META-INF

context.xml 85B

MANIFEST.MF 25B

test

com

sohu

SohuNewsTest.java 1KB

README.md 1KB

build.xml 3KB

# 基于java实现网络爬虫源码爬虫实现原理网络爬虫基本技术处理网络爬虫是数据采集的一种方法，实际项目开发中，通过爬虫做数据采集一般只有以下几种情况： 1）搜索引擎 2）竞品调研 3）舆情监控 4）市场分析网络爬虫的整体执行流程： 1）确定一个（多个）种子网页 2）进行数据的内容提取 3）将网页中的关联网页连接提取出来 4）将尚未爬取的关联网页内容放到一个队列中 5）从队列中取出一个待爬取的页面，判断之前是否爬过。 6）把没有爬过的进行爬取，并进行之前的重复操作。 7）直到队列中没有新的内容，爬虫执行结束。这样完成爬虫时，会有一些概念必须知道的： 1）深度（depth）：一般来说，表示从种子页到当前页的打开连接数，一般建议不要超过5层。 2）广度（宽度）优先和深度优先：表示爬取时的优先级。建议使用广度优先，按深度的层级来顺序爬取。

评论收藏

内容反馈