Java网络爬虫(蜘蛛)源码_java攀登网源码下载资源-CSDN文库

共55个文件

class：15个

java：11个

xml：9个

需积分: 10 48 浏览量 2016-10-18 18:53:11 上传评论 2 收藏 1.26MB RAR 举报

【Java网络爬虫(蜘蛛)源码】是一个基于JAVA语言开发的简单网络爬虫程序，设计用于抓取指定网站上的新闻内容。这个项目为初学者提供了一个很好的学习平台，通过研究源码，开发者可以理解网络爬虫的基本工作原理和实现方式。我们要了解网络爬虫的基本概念。网络爬虫，又称网页蜘蛛或网络机器人，是一种自动化程序，它按照一定的规则（如HTML链接）遍历互联网，抓取网页信息。在Java中，我们通常使用HttpURLConnection、Jsoup或Apache HttpClient等库来实现网络请求和HTML解析。在该项目中，`src`目录包含源代码，这是程序的核心部分。开发者可以在这里找到实现爬虫功能的类和方法。通常，一个简单的爬虫会包括以下几个主要组件： 1. **URL管理器**: 负责跟踪已访问和待访问的URL，避免重复抓取。 2. **下载器**: 使用HTTP库发送请求并接收响应，将网页内容保存到本地或内存。 3. **解析器**: 解析下载的HTML内容，提取所需的数据（如新闻标题、内容等）。 4. **存储器**: 将抓取到的数据存储到文件、数据库或其他持久化介质中。`news.sql`可能是存储抓取结果的数据库文件。 `build.xml`是Ant构建文件，用于自动化构建和测试过程。Ant是Java的一个构建工具，可以编译、打包、测试代码，并生成最终的可执行文件或JAR包。 `web`目录可能包含示例的网页结构，用于测试爬虫的效果，或者存储爬虫抓取的目标站点的静态资源。 `build`、`test`和`dist`目录分别对应构建输出、测试代码和发布包。`build`通常包含编译后的类文件，`test`包含单元测试代码，而`dist`则包含可供分发的完整软件包。 `nbproject`目录是NetBeans IDE的项目配置文件，提供了项目设置、构建脚本和依赖关系等信息，便于在NetBeans环境中管理和开发项目。学习这个Java网络爬虫源码，开发者可以了解到如何处理网络请求，解析HTML，以及如何组织爬虫的各个组件。同时，通过阅读和调试代码，还能加深对Java编程和Web抓取技术的理解。不过，值得注意的是，进行网络爬虫时应遵循网站的robots.txt文件和相关法律法规，尊重网站的抓取政策，避免对服务器造成过大的负担。

资源推荐

资源详情

资源评论

收起资源包目录

zhizhupc.rar （55个子文件）

news.sql 440B

src

conf

MANIFEST.MF 25B

lib

htmllexer.jar 68KB

htmlparser.jar 281KB

commons-httpclient-3.1.jar 298KB

commons-codec-1.3.jar 46KB

commons-logging-1.0.4.jar 37KB

java

com

sohu

ConnectionManager.java 2KB

SohuNews.java 10KB

servlet

GetNewsServlet.java 3KB

crawler

Crawler.java 2KB

LinkFilter.java 231B

LinkDB.java 1KB

Queue.java 620B

LinkParser.java 4KB

NewsToDB.java 270B

bean

NewsBean.java 2KB

web

WEB-INF

web.xml 790B

index.jsp 750B

META-INF

context.xml 85B

detail.jsp 920B

build

web

WEB-INF

classes

com

sohu

ConnectionManager.class 2KB

SohuNews.class 8KB

SohuNews$1.class 885B

servlet

GetNewsServlet$1.class 969B

GetNewsServlet.class 2KB

crawler

Crawler$1.class 779B

LinkParser$2.class 796B

LinkParser.class 3KB

NewsToDB.class 453B

LinkParser$1.class 819B

Queue.class 1KB

Crawler.class 2KB

LinkFilter.class 203B

LinkDB.class 2KB

bean

NewsBean.class 1KB

.netbeans_automatic_build 0B

lib

htmllexer.jar 68KB

htmlparser.jar 281KB

mysql-connector-java-5.1.6-bin.jar 687KB

web.xml 790B

index.jsp 750B

META-INF

MANIFEST.MF 25B

context.xml 85B

detail.jsp 1KB

test

com

sohu

SohuNewsTest.java 1KB

dist

Sohu.war 1.05MB

build.xml 3KB

nbproject

genfiles.properties 473B

project.properties 2KB

private

private.xml 211B

private.properties 2KB

ant-deploy.xml 2KB

build-impl.xml 46KB

project.xml 1KB

package com.sohu; import com.sohu.bean.NewsBean; import com.sohu.db.ConnectionManager; import java.util.ArrayList; import java.util.List; import java.util.logging.Level; import java.util.logging.Logger; import org.htmlparser.NodeFilter; import org.htmlparser.Parser; import org.htmlparser.beans.StringBean; import org.htmlparser.filters.AndFilter; import org.htmlparser.filters.HasAttributeFilter; import org.htmlparser.filters.TagNameFilter; import org.htmlparser.tags.Div; import org.htmlparser.tags.HeadingTag; import org.htmlparser.tags.Span; import org.htmlparser.util.NodeList; import org.htmlparser.util.ParserException; import java.sql.PreparedStatement; import java.sql.SQLException; /** * 用于对搜狐网站上的新闻进行抓取 * @author guanminglin <guanminglin@gmail.com> */ public class SohuNews { private Parser parser = null; //用于分析网页的分析器。 private List newsList = new ArrayList(); //暂存新闻的List； private NewsBean bean = new NewsBean(); private ConnectionManager manager = null; //数据库连接管理器。 private PreparedStatement pstmt = null; public SohuNews() { } /** * 获得一条完整的新闻。 * @param newsBean * @return */ public List getNewsList(final NewsBean newsBean) { List list = new ArrayList(); String newstitle = newsBean.getNewsTitle(); String newsauthor = newsBean.getNewsAuthor(); String newscontent = newsBean.getNewsContent(); String newsdate = newsBean.getNewsDate(); list.add(newstitle); list.add(newsauthor); list.add(newscontent); list.add(newsdate); return list; } /** * 设置新闻对象，让新闻对象里有新闻数据 * @param newsTitle 新闻标题 * @param newsauthor 新闻作者 * @param newsContent 新闻内容 * @param newsDate 新闻日期 * @param url 新闻链接 */ public void setNews(String newsTitle, String newsauthor, String newsContent, String newsDate, String url) { bean.setNewsTitle(newsTitle); bean.setNewsAuthor(newsauthor); bean.setNewsContent(newsContent); bean.setNewsDate(newsDate); bean.setNewsURL(url); } /** * 该方法用于将新闻添加到数据库中。 */ protected void newsToDataBase() { //建立一个线程用来执行将新闻插入到数据库中。 Thread thread = new Thread(new Runnable() { public void run() { boolean sucess = saveToDB(bean); if (sucess != false) { System.out.println("插入数据失败"); } } }); thread.start(); } /** * 将新闻插入到数据库中 * @param bean * @return */ public boolean saveToDB(NewsBean bean) { boolean flag = true; String sql = "insert into news(newstitle,newsauthor,newscontent,newsurl,newsdate) values(?,?,?,?,?)"; manager = new ConnectionManager(); String titleLength = bean.getNewsTitle(); if (titleLength.length() > 60) { //标题太长的新闻不要。 return flag; } try { pstmt = manager.getConnection().prepareStatement(sql); pstmt.setString(1, bean.getNewsTitle()); pstmt.setString(2, bean.getNewsAuthor()); pstmt.setString(3, bean.getNewsContent()); pstmt.setString(4, bean.getNewsURL()); pstmt.setString(5, bean.getNewsDate()); flag = pstmt.execute(); } catch (SQLException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } finally { try { pstmt.close(); manager.close(); } catch (SQLException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } } return flag; } /** * 获得新闻的标题 * @param titleFilter * @param parser * @return */ private String getTitle(NodeFilter titleFilter, Parser parser) { String titleName = ""; try { NodeList titleNodeList = (NodeList) parser.parse(titleFilter); for (int i = 0; i < titleNodeList.size(); i++) { HeadingTag title = (HeadingTag) titleNodeList.elementAt(i); titleName = title.getStringText(); } } catch (ParserException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } return titleName; } /** * 获得新闻的责任编辑，也就是作者。 * @param newsauthorFilter * @param parser * @return */ private String getNewsAuthor(NodeFilter newsauthorFilter, Parser parser) { String newsAuthor = ""; try { NodeList authorList = (NodeList) parser.parse(newsauthorFilter); for (int i = 0; i < authorList.size(); i++) { Div authorSpan = (Div) authorList.elementAt(i); newsAuthor = authorSpan.getStringText(); } } catch (ParserException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } return newsAuthor; } /* * 获得新闻的日期 */ private String getNewsDate(NodeFilter dateFilter, Parser parser) { String newsDate = null; try { NodeList dateList = (NodeList) parser.parse(dateFilter); for (int i = 0; i < dateList.size(); i++) { Span dateTag = (Span) dateList.elementAt(i); newsDate = dateTag.getStringText(); } } catch (ParserException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } return newsDate; } /** * 获取新闻的内容 * @param newsContentFilter * @param parser * @return content 新闻内容 */ private String getNewsContent(NodeFilter newsContentFilter, Parser parser) { String content = null; StringBuilder builder = new StringBuilder(); try { NodeList newsContentList = (NodeList) parser.parse(newsContentFilter); for (int i = 0; i < newsContentList.size(); i++) { Div newsContenTag = (Div) newsContentList.elementAt(i); builder = builder.append(newsContenTag.getStringText()); } content = builder.toString(); //转换为String 类型。 if (content != null) { parser.reset(); parser = Parser.createParser(content, "gb2312"); StringBean sb = new StringBean(); sb.setCollapse(true); parser.visitAllNodesWith(sb); content = sb.getStrings(); // String s = "\";} else{ document.getElementById('TurnAD444').innerHTML = \"\";} } showTurnAD444(intTurnAD444); }catch(e){}"; content = content.replaceAll("\\\".*[a-z].*\\}", ""); content = content.replace("[我来说两句]", ""); } else { System.out.println("没有得到新闻内容！"); } } catch (ParserException ex) { Logger.getLogger(SohuNews.class.getName()).log(Level.SEVERE, null, ex); } return content; } /** * 根据提供的URL，获取此URL对应网页所有的纯文本信息，次方法得到的信息不是很纯， *常常会得到我们不想要的数据。不过如果你只是想得到某个URL 里的所有纯文本信息，该方法还是很好用的。 * @param url 提供的URL链接 * @return RL对应网页的纯文本信息 * @throws ParserException * @deprecated 该方法被 getNewsContent

评论收藏

内容反馈