java网络爬虫,用java做的一个简单的网络爬虫项目资源-CSDN文库

共16个文件

html：3个

classpath：1个

doc：1个

网络爬虫

4星 · 超过85%的资源需积分: 9 84 浏览量 2011-03-23 21:24:46 上传评论 5 收藏 69KB RAR 举报

资源推荐

资源详情

资源评论

收起资源包目录

java网络爬虫.rar （16个子文件）

java网络爬虫

正则表达式

img.html 208KB

提取网页邮箱.html 14KB

正则表达式.html 1KB

URL

.project 1KB

.settings

.jsdtscope 500B

org.eclipse.jdt.core.prefs 330B

org.eclipse.wst.jsdt.ui.superType.container 49B

org.eclipse.wst.jsdt.ui.superType.name 6B

.mymetadata 282B

WebRoot

WEB-INF

web.xml 371B

lib

classes

com

aptech

TestUrl.class 3KB

index.jsp 829B

META-INF

MANIFEST.MF 36B

.myeclipse

src

com

aptech

TestUrl.java 3KB

.classpath 362B

java网络爬虫.doc 38KB

用多线程实现的 Java 爬虫程序

2008-10-23 14:45

用多线程实现的

Java

爬虫程序

以下是一个 Java 爬虫程序，它能从指定主页开始，按照指定的深度抓取该站点域名下的网

页并维护简单索引。

参数：private static int webDepth = 2;//爬虫深度。主页的深度为 1，设置深度后超过

该深度的网页不会抓取。

private int intThreadNum = 10;//线程数。开启的线程数。

抓取时也会在程序源文件目录下生成一个 report.txt 文件记录爬虫的运行情况，并在抓取结束

后生成一个 leindex.txt 文件维护网页文件索引。

本程序用到了多线程(静态变量和同步)，泛型，文件操作，URL 类和连接，Hashtable 类关联

数组，正则表达式及其相关类。运行时需使用命令行参数，第一个参数应使用 http://开头的

有效 URL 字符串作为爬虫的主页，第二个参数（可选）应输入可转换为 int 型的字符串（用

Integer.parseInt(String s)静态方法可以转换的字符串，如 3）作为爬虫深度，如果没有，则默

认深度为 2。

本程序的不足之处是：只考虑了 href= href=' href="后加绝对 url 的这三种情况(由于 url 地址

在网页源文件中情况比较复杂，有时处理也会出现错误)，还有相对 url 和 window.open('的情

况没有考虑。异常处理程序也只是简单处理。如果读者有改进办法可以把源代码帖出，不胜

感激。

附上源代码如下（保存名为 GetWeb.java）：

import java.io.File;

import java.io.Bu#eredReader;

import java.io.FileOutputStream;

import java.io.InputStream;

import java.io.InputStreamReader;

import java.io.OutputStreamWriter;

import java.io.PrintWriter;

import java.net.URL;

import java.net.URLConnection;

import java.util.ArrayList;

import java.util.regex.Matcher;

import java.util.regex.Pattern;

import java.util.Hashtable;

public class GetWeb {

private int webDepth = 2;//爬虫深度

private int intThreadNum = 10;//线程数

private String strHomePage = "";//主页地址

private String myDomain;//域名

private String fPath = "web";//储存网页文件的目录名

private ArrayList<String> arrUrls = new ArrayList<String>();//存储未处理 URL

private ArrayList<String> arrUrl = new ArrayList<String>();//存储所有 URL 供建

立索引

private Hashtable<String,Integer> allUrls = new

Hashtable<String,Integer>();//存储所有 URL 的网页号

private Hashtable<String,Integer> deepUrls = new

Hashtable<String,Integer>();//存储所有 URL 深度

private int intWebIndex = 0;//网页对应文件下标，从 0 开始

private String charset = "GB2312";

private String report = "";

private long startTime;

private int webSuccessed = 0;

private int webFailed = 0;

public GetWeb(String s)

{

this.strHomePage = s;

}

public GetWeb(String s,int i)

{

this.strHomePage = s;

this.webDepth = i;

}

public synchronized void addWebSuccessed()

{

webSuccessed++;

}

public synchronized void addWebFailed()

{

webFailed++;

}

public synchronized void addReport(String s)

{

try

{

report += s;

PrintWriter pwReport = new PrintWriter(new FileOutputStream("report.txt"));

pwReport.println(report);

pwReport.close();

}

catch(Exception e)

{

System.out.println("生成报告文件失败!");

}

public synchronized String getAUrl()

{

String tmpAUrl = arrUrls.get(0);

arrUrls.remove(0);

return tmpAUrl;

}

public synchronized String getUrl()

{

String tmpUrl = arrUrl.get(0);

arrUrl.remove(0);

return tmpUrl;

}

public synchronized Integer getIntWebIndex()

{

intWebIndex++;

return intWebIndex;

}

/**

* @param args

public static void main(String[] args)

{

if (args.length == 0 || args[0].equals(""))

{

System.out.println("No input!");

System.exit(1);

}

else if(args.length == 1)

{

GetWeb gw = new GetWeb(args[0]);

gw.getWebByHomePage();

}

else

{

评论收藏

内容反馈

zxj691012

2013-02-21

可以运行了
zabio

2013-11-28

太好了虽然我没怎么用
ysy15350

2013-01-08

注释再详细点就好了
xc521

2012-04-22

比较简单适合我们这种新手
wc0907020213

2013-08-22

比较简单适合新手

前往

页

adan-阿丹

粉丝: 12
资源: 4

java网络爬虫,用java做的一个简单的网络爬虫项目

基于java实现网络爬虫

Java网络爬虫源码

Java网络爬虫蜘蛛源码

java网络爬虫实例

使用Java创建一个网络爬虫

java网络爬虫小项目

JAVA网络爬虫项目源码 swing界面+爬虫算法实现

java 网络爬虫

基于jsoup的java爬虫项目

java爬虫项目实战源码.rar

java爬虫项目，webmagic源码 java开发爬虫项目

java爬虫项目实战源码 爬虫源码下载+赠送源码.zip

java爬虫需要的jar包

Java网络爬虫MySpider.zip

java天气爬虫

java 简单爬虫入门maven项目

Java第十五届蓝桥杯大赛软件JavaB组真题

SwitchHosts

安卓期末大作业（AndroidStudio开发），垃圾分类助手app，分为前台后台，代码有注释，均能正常运行

Notepad++安装包

2024北森能力测评题库.7z

微信小程序源码-合集1.rar

Java面试八股文2023最新版

Linux Centos7 升级最新版OpenSSH-9.6p1 有脚本（支持离线）

JDK1.8 windows 64位

ruoyi-vue-pro 芋道源码项目的表结构

ruoyi-vue-pro开发指南PDF下载

myeclipse 10.7.1 windows 安装包

最新资源

java爬虫项目实战源码爬虫源码下载+赠送源码.zip