一个JAVA开发的简单网络爬虫 可以实现对指定站点新闻内容的获取 程序很简单 大家一起学习
┏━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┓
┃源码站 - 下载文件说明: alixixi.com┃
┣━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┫
┃ 做最好的源码下载网站:源码站,www.alixixi.com ┃
┣━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┫
┃【使用前请您先阅读以下条款,否则请勿使用本站提供的文件!】 ┃
┃ 1) 推荐使用:WinRAR V3.4以上版本解压本站软件 ┃
┃ 2) 本站不保证所提供软件或程序的完整性和安全性。 ┃
┃ 3) 请在使用前查毒 (这也是您使用其它网络资源所必须注意的) 。 ┃
┃ 4) 由本站提供的程序对您网站或计算机造成严重后果的本站概不负责。┃
┃ 5) 本站提供的程序均为网上搜集,如果该程序涉及或侵害到您的版权请┃
┃ 立即写信通知我们。 ┃
┣━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┫
┃ 如果遇到MD5加密文件(一般都是这个),而又不知道密码的, ┃
┃ 请用这组加密的数据1739fddf100746ca替换,那么密码就是:alixixi.com┃
┃ (这个是16位的,32位的是:773164f11739fddf100746ca6b337834) ┃
┣━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┫
┃ 欢迎广大程序作者到本站发布您的作品! ┃
┃ 源码站 - 下载源码就到源码站 ┃
┃ 联系邮箱:wuse#alixixi.com( #替换成@ ) ┃
┗━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┛
没有合适的资源?快使用搜索试试~ 我知道了~
【计算机课程设计】基于Java网络爬虫(蜘蛛)源码.zip
网络爬虫(也称为网络蜘蛛)是一种自动化程序,用于在互联网上自动抓取和提取网站信息。Java是一种广泛使用的编程语言,拥有丰富的网络编程库和工具,因此Java非常适合用于编写网络爬虫。下面是一个基于Java的网络爬虫源码的简要介绍。
该爬虫的基本原理是:从指定的起始网址开始,递归地遍历整个网站,抓取网页内容并提取出有用的信息。该爬虫使用了Jsoup库来处理HTML文档,使用了Java的线程池来实现多线程抓取,使用了MySQL数据库来存储抓取到的信息。
收起资源包目录
【计算机课程设计】基于Java网络爬虫(蜘蛛)源码.zip (57个子文件)
【计算机课程设计】基于Java网络爬虫(蜘蛛)源码
【计算机课程设计】基于Java网络爬虫(蜘蛛)源码
【计算机课程设计】基于Java网络爬虫(蜘蛛)源码
nbproject
project.properties 2KB
genfiles.properties 473B
build-impl.xml 46KB
project.xml 1KB
ant-deploy.xml 2KB
private
private.xml 211B
private.properties 2KB
src
lib
commons-logging-1.0.4.jar 37KB
htmllexer.jar 68KB
commons-httpclient-3.1.jar 298KB
htmlparser.jar 281KB
commons-codec-1.3.jar 46KB
java
com
sohu
servlet
GetNewsServlet.java 3KB
SohuNews.java 10KB
crawler
Queue.java 620B
Crawler.java 2KB
LinkFilter.java 231B
LinkParser.java 4KB
LinkDB.java 1KB
NewsToDB.java 270B
bean
NewsBean.java 2KB
db
ConnectionManager.java 2KB
conf
MANIFEST.MF 25B
web
WEB-INF
web.xml 790B
index.jsp 750B
detail.jsp 920B
META-INF
context.xml 85B
readme.txt 2KB
news.sql 440B
dist
Sohu.war 1.05MB
build
web
WEB-INF
classes
.netbeans_automatic_build 0B
com
sohu
servlet
GetNewsServlet.class 2KB
GetNewsServlet$1.class 969B
SohuNews.class 8KB
SohuNews$1.class 885B
crawler
LinkParser$2.class 796B
LinkParser$1.class 819B
LinkDB.class 2KB
Queue.class 1KB
LinkFilter.class 203B
Crawler.class 2KB
NewsToDB.class 453B
LinkParser.class 3KB
Crawler$1.class 779B
bean
NewsBean.class 1KB
db
ConnectionManager.class 2KB
lib
htmllexer.jar 68KB
htmlparser.jar 281KB
mysql-connector-java-5.1.6-bin.jar 687KB
web.xml 790B
index.jsp 750B
detail.jsp 1KB
META-INF
context.xml 85B
MANIFEST.MF 25B
index - 副本.jsp 750B
test
com
sohu
SohuNewsTest.java 1KB
build.xml 3KB
共 57 条
- 1
资源推荐
资源预览
资源评论
143 浏览量
2024-05-07 上传
118 浏览量
123 浏览量
141 浏览量
129 浏览量
5星 · 资源好评率100%
2021-10-25 上传
126 浏览量
189 浏览量
118 浏览量
2024-04-30 上传
5星 · 资源好评率100%
167 浏览量
2023-05-18 上传
资源评论
流水不腐程序
- 粉丝: 680
- 资源: 952
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功