没有合适的资源?快使用搜索试试~ 我知道了~
一个WEB爬虫的实例——JAVA.docx
1.该资源内容由用户上传,如若侵权请联系客服进行举报
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
2.虚拟产品一经售出概不退款(资源遇到问题,请及时私信上传者)
版权申诉
0 下载量 142 浏览量
2022-12-17
14:51:29
上传
评论
收藏 19KB DOCX 举报
温馨提示
试读
8页
,,,
资源推荐
资源详情
资源评论
/**
* @author Jack.Wang
*
*/
import java.io.BufferedReader;
import java.io.InputStreamReader;
import java.net.URL;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.HashSet;
import java.util.LinkedHashSet;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
// �� Web ���
public class SearchCrawler implements Runnable
{
/*
* disallowListCache�� robot ������ URL�Robot ��� Web ����������� robots.txt
��,
* �����������������
* ������������������,��� robots.txt �����:
* # robots.txt for http://somehost.com/ User-agent:
* Disallow: /cgi-bin/
* Disallow: /registration # Disallow robots on registration page
* Disallow: /login
*/
private HashMap<String, ArrayList<String>> disallowListCache = new HashMap<String,
ArrayList<String>>();
ArrayList<String> errorList = new ArrayList<String>();// ����
ArrayList<String> result = new ArrayList<String>(); // ������
String startUrl;// �������
int maxUrl;// ����� url �
String searchString;// �������(��)
boolean caseSensitive = false;// �������
boolean limitHost = false;// �����������
public SearchCrawler(String startUrl, int maxUrl, String searchString) {
this.startUrl = startUrl;
this.maxUrl = maxUrl;
this.searchString = searchString;
}
资源评论
xxpr_ybgg
- 粉丝: 6520
- 资源: 3万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功