自动采集代码，我自己测试的资源-CSDN文库

共3个文件

java：3个

4星 · 超过85%的资源需积分: 3 179 浏览量 2009-02-04 13:59:19 上传评论收藏 3KB RAR 举报

标题中的“自动采集代码，我自己测试的”表明这是一个关于自动化数据采集的代码示例，可能是通过编程实现的一种网络爬虫技术。描述中提到了“lucene”，这是一个流行的全文搜索引擎库，通常用于高效地索引和搜索大量文本数据。作者提到这个代码可能是与Lucene相关的，可能涉及到利用Lucene进行数据的抓取、存储和检索。同时，作者邀请对数据采集和网络蜘蛛感兴趣的人加入群组37424970，或者通过MSN或邮件（zhuseahui@yahoo.com.cn）进行交流，暗示这可能是一个学习和讨论的社区项目。标签“lucene”、“采集”和“网络蜘蛛”进一步明确了主题。Lucene是Java开发的开源搜索引擎，它提供了文本分析、索引创建、搜索等功能，广泛应用于各种数据抓取和分析场景。"采集"指的是从互联网上抓取信息的过程，这通常由网络蜘蛛（也称为网络爬虫）来完成，它们可以自动遍历网页，按照预定规则抓取所需内容。网络蜘蛛是一种自动化程序，能够模拟用户行为，追踪链接并下载页面，为数据处理和分析提供原始素材。在压缩包中的“Test2”文件，可能是一个测试文件，可能包含了一个简单的Lucene应用实例，用于演示如何设置爬虫规则，如何使用Lucene进行索引和搜索。这个文件可能包括了以下关键知识点： 1. Lucene基础：了解Lucene的核心概念，如Analyzer（分析器）、Document（文档）、Field（字段）、IndexWriter（索引写入器）和Searcher（搜索器）等。 2. 爬虫框架：可能使用了某种网络爬虫框架，如Scrapy（Python）或Jsoup（Java），学习如何设置起始URL，定义爬取规则，以及如何处理抓取到的数据。 3. 数据解析：如何解析HTML或XML等格式的网页内容，提取有用信息，这可能涉及到正则表达式、BeautifulSoup（Python）或Jsoup（Java）等工具。 4. Lucene索引构建：学习如何使用Lucene将抓取到的数据转换成可搜索的索引，包括设置Analyzer、创建Document、定义Field、写入索引等步骤。 5. 搜索功能：如何使用Lucene的Searcher进行查询，包括构造Query对象、执行搜索、获取并解析结果等。 6. 错误处理和异常管理：在实际爬虫项目中，会遇到各种网络问题和格式错误，需要编写适当的错误处理代码来确保程序的健壮性。 7. 并发与多线程：如果代码涉及大规模爬取，可能采用了多线程或异步处理来提高效率。 8. 存储与持久化：抓取的数据可能被存储在本地文件系统、数据库或云存储中，了解如何有效地管理和存储这些数据。 9. 遵守robots.txt协议：爬虫应尊重网站的robots.txt文件，避免抓取禁止抓取的页面。通过分析和学习这个“Test2”文件，读者可以深入理解Lucene在数据采集中的应用，以及如何结合网络爬虫技术进行高效的信息获取和处理。同时，参与作者提供的社区讨论，还能与其他爱好者交流经验，共同提升技能。

资源推荐

资源详情

资源评论

收起资源包目录

Test2-自动采集代码，我自己测试的.rar （3个子文件）

Test2

Test4.java 1KB

Test.java 892B

Urls.java 4KB

package com.Test2; import java.io.BufferedReader; import java.io.IOException; import java.io.InputStreamReader; import java.net.MalformedURLException; import java.net.URL; import java.util.ArrayList; import java.util.HashMap; import java.util.List; import java.util.regex.Matcher; import java.util.regex.Pattern; import java.net.*; import java.io.*; import java.util.regex.*; /* 根据指定的规则，通过构造正则表达式获取网址 */ public class Urls { private String startUrl; //开始采集网址 String urlContent; String ContentArea; private String strAreaBegin, strAreaEnd; //采集区域开始采集字符串和结束采集字符串 private String stringInUrl, stringNotInUrl; String strContent;//获得的采集内容 String[] allUrls; //采集到的所有网址 private String regex; //采集规则 UrlAndTitle urlAndTitle = new UrlAndTitle(); //存储网址和标题 public static void main(String[] args) { Urls myurl = new Urls("<body", "/body>"); myurl.getStartUrl("http://www.qidian.com/"); myurl.getUrlContent(); myurl.getContentArea(); myurl.getStringInUrl("http://www.qidian.com/"); myurl.getStringNotInUrl("google"); myurl.Urls(); // System.out.println("startUrl:"+myurl.startUrl); // System.out.println("urlcontent:"+myurl.urlContent); // System.out.println("ContentArea:"+myurl.ContentArea); } //初始化构造函数 strAreaBegin 和strAreaEnd public Urls(String strAreaBegin, String strAreaEnd) { this.strAreaBegin = strAreaBegin; this.strAreaEnd = strAreaEnd; } // public void Urls() { int i = 0; //String regex ="<a href="?''?http://[a-zA-Z0-9]+\.[a-zA-Z0-9]+\.[a-zA-Z]+/?[\.?[\S|\s]]+[a>]$"; String regex = "<a.*?/a>"; //String regex ="http://.*?>"; Pattern pt = Pattern.compile(regex); Matcher mt = pt.matcher(ContentArea); while (mt.find()) { System.out.println(mt.group()); i++; //获取标题 Matcher title = Pattern.compile(">.*?</a>").matcher(mt.group()); while (title.find()) { System.out.println("标题:" + title.group().replaceAll(">|</a>", "")); } //获取网址 Matcher myurl = Pattern.compile("href=.*?>").matcher(mt.group()); while (myurl.find()) { System.out.println("网址:" + myurl.group().replaceAll("href=|>", "")); } System.out.println(); } System.out.println("共有" + i + "个符合结果"); } //获得开始采集网址 public void getStartUrl(String startUrl) { this.startUrl = startUrl; } //获得网址所在内容; public void getUrlContent() { StringBuffer is = new StringBuffer(); try { URL myUrl = new URL(startUrl); BufferedReader br = new BufferedReader(new InputStreamReader(myUrl .openStream())); String s; while ((s = br.readLine()) != null) { is.append(s); } urlContent = is.toString(); } catch (Exception e) { System.out.println("网址文件未能输出"); e.printStackTrace(); } } //获得网址所在的匹配区域部分 public void getContentArea() { int pos1 = 0, pos2 = 0; pos1 = urlContent.indexOf(strAreaBegin) + strAreaBegin.length(); pos2 = urlContent.indexOf(strAreaEnd, pos1); ContentArea = urlContent.substring(pos1, pos2); } //以下两个函数获得网址应该要包含的关键字及不能包含的关键字 //这里只做初步的实验。后期，保护的关键字及不能包含的关键字应该是不只一个的。 public void getStringInUrl(String stringInUrl) { this.stringInUrl = stringInUrl; } public void getStringNotInUrl(String stringNotInUrl) { this.stringNotInUrl = stringNotInUrl; } //获取采集规则 //获取url网址 public void getUrl() { } public String getRegex() { return regex; } class UrlAndTitle { String myURL; String title; } }

评论收藏

内容反馈