简单网页爬虫和检索软件源码资源-CSDN文库

共2个文件

pdf：1个

7z：1个

java

爬虫

源码

3星 · 超过75%的资源需积分: 9 31 浏览量 2012-08-08 16:47:44 上传评论收藏 28.67MB 7Z 举报

资源推荐

资源详情

资源评论

收起资源包目录

Desktop.7z （2个子文件）

技术文档.pdf 569KB

Crawl.7z 27.82MB

BJTU

交大内网搜索系统

技术文档

吴亚东

2012/5/16

技术文档

1 / 12

Crawl 部分------------------------------------------------------------------------------------------------2

Injector 部分----------------------------------------------------------------------------------------------3

Generator 部分--------------------------------------------------------------------------------------------4

Fetcher 部分-----------------------------------------------------------------------------------------------5

URL 规范化-----------------------------------------------------------------------------------------------6

URLFilter---------------------------------------------------------------------------------------------------7

域名评分方法----------------------------------------------------------------------------------------------8

FileIndex 部分---------------------------------------------------------------------------------------------9

网页分析部分----------------------------------------------------------------------------------------------10

权重设计----------------------------------------------------------------------------------------------------11

搜索部分----------------------------------------------------------------------------------------------------12

2 / 12

Crawl 部分

程序架构

Injector injector = new Injector();

Generator generator = new Generator();

Fetcher fetcher = new Fetcher();

//线程池

ExecutorService pool = Executors.newCachedThreadPool();

try {

//引入种子列表

injector.inject(urlPath, crawlPath);

int i ;

for(i = 0;i < depth;i ++)

{

//generator

String[] paths = generator.generate(crawlPath, segments, topN,

System.currentTimeMillis(),type);

if(paths == null)

{

log.info("stopping at depth " + i + ",no more urls!");

System.out.println("stopping at depth " + i + ",no more urls!");

break;

}

//fetch

fetcher.fetch(paths, segments, webPath, threads,pool);

//更新数据库，删除 segments 文件夹中的内容

injector.inject(updatePath, crawlPath);

File file = new File(segments);

if(!deleteDirector(file))

{

log.info("delete " + segments + " ,failed!");

System.out.println("delete " + segments + " ,failed!");

}

3 / 12

Injector 部分

功能：

将 url 集合进行格式化，过滤，并设定 UNFetched 状态

将 url 进行合并，消除重复的 URL 路口。

将 URL 级其状态，分值存入 crawldb 数据库。

算法：

将保存在文件中的种子 url 取出，变成<url,CrawlDatum>(当然要进行规范，过滤)

如果有上一次形成的 crawlDB，同样取出所有的<url,crawlDatum>，和新加入的键值对

一起加入一个 hashMap，注意要先新的种子加入，然后再久的 url 加入。然后保存到 tempdb

中。处理完，将旧的 crawlDB 删除，将 tempDB 改名保存为新的。

注意：CrawlDatum 保存的是 url 很多状态和信息的类

评论收藏

内容反馈

zhen_buqiao_a

2014-09-30

。。试了下不是我想要的
mclown

2012-11-22

刚开始接触爬虫技术感谢楼主分享挺实用的对于搜索引擎
Troy0Zhou

2014-06-14

不具有通用性
tang0444

2018-02-28

good，希望我能看懂
j15060005502

2012-11-22

无法抓取设定外的信息

前往

页

zxogj

粉丝: 11
资源: 26

简单网页爬虫和检索软件源码

网络爬虫页面检索器(java代码)

java实现简单爬虫，以及简易排序检索

crawlerjs:检索网页链接的爬虫 SAP

java源码网络爬虫-WebCrawler:特定购物网站的Java应用程序。检索产品信息，包括价格，运输，供应商，产品来源等

Website_Gadgets:通常，小工具是生成或将外部信息提取到网页中的小型实用程序。 从最简单的形式来说，小工具就是小东西。 xml文件，该文件可检索信息并使其一次可在多个网页中使用

JAVA源码文本-HebMorph:这是一项开放源代码的工作，旨在使希伯来语可以被各种IR软件库正确搜索，同时保持良好的查全率，准确性和检索的

网络爬虫源代码

python网络爬虫零基础入门-思维导图合集，01-爬虫基础、02-requests模块、03-数据提取、04-selenium

VC++网络爬虫

JAVA上百实例源码以及开源项目源代码

Python批量检索论文被引用数量源码，利用百度学术网页版来批量检索论文的被引用数量源码

java6.0源码-JavaOperaLink:使用OperaLinkAPI检索用户快速拨号的简单servlet

TimetableUOIT:简单的网页抓取工具，只需单击一下即可检索您的MyCampus时间表

精选_C语言实现的基于查找表的单词检索软件_源码打包

初学Python之爬虫的教程 以及案例

python毕设基于知识图谱的学术信息检索系统+源代码+文档说明

基于Python的flask网络爬虫web项目，实现智能职位检索和推荐，全栈开发，爬虫web应用实战

基于Python实现的网页文本预处理.zip

计算机毕业设计源码：基于python旅游推荐系统+爬虫+分析可视化 +django框架

计算机毕业设计源码：python旅游景点推荐系统 爬虫+协同过滤推荐算法 旅游推荐 Flask框架

doc文档python爬虫源码

搜索链接Java网络爬虫(蜘蛛)源码-zhizhu

基于python旅游推荐系统+爬虫+分析可视化 +django框架（包含文档+源码+部署教程）计算机毕业设计

C#网络爬虫源码.zip

网络图片检索引擎

JAVA上百实例源码以及开源项目

Matlab+毕业设计+全文检索系统+布式版本

强大的python实现的微博爬虫项目源码

最新资源

Website_Gadgets:通常，小工具是生成或将外部信息提取到网页中的小型实用程序。从最简单的形式来说，小工具就是小东西。 xml文件，该文件可检索信息并使其一次可在多个网页中使用

初学Python之爬虫的教程以及案例

计算机毕业设计源码：python旅游景点推荐系统爬虫+协同过滤推荐算法旅游推荐 Flask框架