java网络爬虫实例2020资源-CSDN文库

需积分: 9 42 浏览量 2020-11-27 15:39:41 上传评论收藏 112KB DOC 举报

Java网络爬虫是一种用于自动化获取网页内容的程序，它通过模拟浏览器行为，遍历互联网上的网页，抓取所需信息。2020年的Java爬虫实例通常会利用现代的网络库，如Jsoup或Apache HttpClient，来实现高效、稳定的数据抓取。爬虫的核心原理可以分为以下几个步骤： 1. **起始点**：爬虫通常从一个或多个起始网页开始，这些网页通常包含了丰富的链接，如首页或网站地图。 2. **网页抓取**：爬虫会读取网页内容，解析HTML，提取出链接。它可以根据网页的链接结构决定下一步抓取哪个页面，这有两种策略： - **广度优先**：首先抓取起始页的所有链接，然后依次抓取链接的链接，以此类推，如同水平扩展。 - **深度优先**：从起始页开始，沿着一条链接链深入抓取，直到达到设定的深度限制，然后回溯到上一级抓取其他链接。 3. **链接处理**：爬虫在抓取过程中会遇到各种网页结构，包括加密数据和权限限制。对于需要会员权限的网页，爬虫可能需要模拟登录或使用提供的用户名和密码进行访问。 4. **抓取策略**：考虑到存储和处理能力的限制，爬虫通常只抓取被认为重要的网页。重要性通常基于链接深度，链接越深的页面，被访问的可能性越低。扁平化的网站结构有利于爬虫抓取更多内容。 5. **避免过度负载**：为了避免给目标网站服务器带来过大的负担，爬虫需要合理控制抓取频率和并发量。此外，网站可以通过`robots.txt`文件指示爬虫哪些部分不应抓取，哪些部分应定期更新。 6. **身份识别**：网络蜘蛛在请求网页时会携带User-agent信息，表明其身份，如GoogleBot、BaiDuSpider等。网站管理员可以通过日志监控不同爬虫的行为，如果发现异常，可与爬虫所有者沟通。 Java爬虫实例通常会包含完整的源代码和详细的解释，帮助开发者理解如何实现这些功能，包括URL管理、HTTP请求、HTML解析、数据存储等。通过学习和实践这些实例，开发者可以掌握网络爬虫的基本技术和技巧，从而在实际项目中应用。

资源详情

资源评论

资源推荐

JAVA 爬虫实例 2020

网络蜘蛛即 Web Spider，是一个很形象的名字。把互联网比喻成一个蜘蛛网，

那么 Spider 就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻

找网页，从网站某一个页面（通常是首页）开始，读取网页的内容，找到在网

页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环

下去，直到把这个网站所有的网页都抓取完为止。如果把整个互联网当成一个

网站，那么网络蜘蛛就可以用这个原理把互联网上所有的网页都抓取下来。

　　对于搜索引擎来说，要抓取互联网上所有的网页几乎是不可能的，从目前

公布的数据来看，容量最大的搜索引擎也不过是抓取了整个网页数量的百分之

四十左右。这其中的原因一方面是抓取技术的瓶颈，无法遍历所有的网页，有

许多网页无法从其它网页的链接中找到；另一个原因是存储技术和处理技术的

问题，如果按照每个页面的平均大小为 20K 计算（包含图片），100 亿网页

的容量是 100×2000G 字节，即使能够存储，下载也存在问题（按照一台机器

每秒下载 20K 计算，需要 340 台机器不停的下载一年时间，才能把所有网页

下载完毕）。同时，由于数据量太大，在提供搜索时也会有效率方面的影响。

因此，许多搜索引擎的网络蜘蛛只是抓取那些重要的网页，而在抓取的时候评

价重要性主要的依据是某个网页的链接深度。

　　在抓取网页的时候，网络蜘蛛一般有两种策略：广度优先和深度优先。

 广度优先是指网络蜘蛛会先抓取起始网页中链接的所有网页，然后再选择其

中的一个链接网页，继续抓取在此网页中链接的所有网页。这是最常用的方式，

因为这个方法可以让网络蜘蛛并行处理，提高其抓取速度。深度优先是指网络

蜘蛛会从起始页开始，一个链接一个链接跟踪下去，处理完这条线路之后再转

入下一个起始页，继续跟踪链接。这个方法有个优点是网络蜘蛛在设计的时候

比较容易。两种策略的区别，下图的说明会更加明确。

　　由于不可能抓取所有的网页，有些网络蜘蛛对一些不太重要的网站，设置

了访问的层数。例如，在上图中，A 为起始网页，属于 0 层，B、C、D、 E、F

属于第 1 层，G、H 属于第 2 层， I 属于第 3 层。如果网络蜘蛛设置的访问层

数为 2 的话，网页 I 是不会被访问到的。这也让有些网站上一部分网页能够在

搜索引擎上搜索到，另外一部分不能被搜索到。对于网站设计者来说，扁平化

的网站结构设计有助于搜索引擎抓取其更多的网页。

　　网络蜘蛛在访问网站网页的时候，经常会遇到加密数据和网页权限的问题，

有些网页是需要会员权限才能访问。当然，网站的所有者可以通过协议让网络

蜘蛛不去抓取（下小节会介绍），但对于一些出售报告的网站，他们希望搜索

引擎能搜索到他们的报告，但又不能完全**的让搜索者查看，这样就需要给网

络蜘蛛提供相应的用户名和密码。网络蜘蛛可以通过所给的权限对这些网页进

行网页抓取，从而提供搜索。而当搜索者点击查看该网页的时候，同样需要搜

索者提供相应的权限验证。

　网站与网络蜘蛛

　　网络蜘蛛需要抓取网页，不同于一般的访问，如果控制不好，则会引起网

站服务器负担过重。去年 4 月，淘宝 http://www.taobao.com）就因为雅虎

搜索引擎的网络蜘蛛抓取其数据引起淘宝网服务器的不稳定。网站是否就无法

和网络蜘蛛交流呢？其实不然，有多种方法可以让网站和网络蜘蛛进行交流。

一方面让网站管理员了解网络蜘蛛都来自哪儿，做了些什么，另一方面也告诉

网络蜘蛛哪些网页不应该抓取，哪些网页应该更新。

　　每个网络蜘蛛都有自己的名字，在抓取网页的时候，都会向网站标明自己

的身份。网络蜘蛛在抓取网页的时候会发送一个请求，这个请求中就有一个字

段为 User－ agent，用于标识此网络蜘蛛的身份。例如 Google 网络蜘蛛的标

识为 GoogleBot，Baidu 网络蜘蛛的标识为 BaiDuSpider， Yahoo 网络蜘蛛

的标识为 Inktomi Slurp。如果在网站上有访问日志记录，网站管理员就能知

道，哪些搜索引擎的网络蜘蛛过来过，什么时候过来的，以及读了多少数据等

等。如果网站管理员发现某个蜘蛛有问题，就通过其标识来和其所有者联系。

下面是博客中 http://www.blogchina.com）2004 年 5 月 15 日的搜索引擎

访问日志：

　　网络蜘蛛进入一个网站，一般会访问一个特殊的文本文件 Robots.txt，这

个文件一般放在网站服务器的根目录下，

http://www.blogchina.com/robots.txt。网站管理员可以通过 robots.txt

来定义哪些目录网络蜘蛛不能访问，或者哪些目录对于某些特定的网络蜘蛛不

能访问。例如有些网站的可执行文件目录和临时文件目录不希望被搜索引擎搜

索到，那么网站管理员就可以把这些目录定义为拒绝访问目录。Robots.txt

语法很简单，例如如果对目录没有任何限制，可以用以下两行来描述：

　　User-agent: *

　　Disallow:

　　当然，Robots.txt 只是一个协议，如果网络蜘蛛的设计者不遵循这个协议，

网站管理员也无法阻止网络蜘蛛对于某些页面的访问，但一般的网络蜘蛛都会

遵循这些协议，而且网站管理员还可以通过其它方式来拒绝网络蜘蛛对某些网

页的抓取。

　　网络蜘蛛在下载网页的时候，会去识别网页的 HTML 代码，在其代码的部

分，会有 META 标识。通过这些标识，可以告诉网络蜘蛛本网页是否需要被抓

取，还可以告诉网络蜘蛛本网页中的链接是否需要被继续跟踪。例如：表示本

网页不需要被抓取，但是网页内的链接需要被跟踪。

　　现在一般的网站都希望搜索引擎能更全面的抓取自己网站的网页，因为这

样可以让更多的访问者能通过搜索引擎找到此网站。为了让本网站的网页更全

面被抓取到，网站管理员可以建立一个网站地图，即 Site Map。许多网络蜘蛛

会把 sitemap.htm 文件作为一个网站网页爬取的入口，网站管理员可以把网

站内部所有网页的链接放在这个文件里面，那么网络蜘蛛可以很方便的把整个

网站抓取下来，避免遗漏某些网页，也会减小对网站服务器的负担。

　　内容提取

　　搜索引擎建立网页索引，处理的对象是文本文件。对于网络蜘蛛来说，抓

取下来网页包括各种格式，包括 html、图片、doc、pdf、多媒体、动态网页

及其它格式等。这些文件抓取下来后，需要把这些文件中的文本信息提取出来。

准确提取这些文档的信息，一方面对搜索引擎的搜索准确性有重要作用，另一

方面对于网络蜘蛛正确跟踪其它链接有一定影响。

　　对于 doc、pdf 等文档，这种由专业厂商提供的软件生成的文档，厂商都

会提供相应的文本提取接口。网络蜘蛛只需要调用这些插件的接口，就可以轻

松的提取文档中的文本信息和文件其它相关的信息。

　　HTML 等文档不一样，HTML 有一套自己的语法，通过不同的命令标识符

来表示不同的字体、颜色、位置等版式，如：、、等，提取文本信息时需要把

这些标识符都过滤掉。过滤标识符并非难事，因为这些标识符都有一定的规则，

只要按照不同的标识符取得相应的信息即可。但在识别这些信息的时候，需要

同步记录许多版式信息，例如文字的字体大小、是否是标题、是否是加粗显示、

是否是页面的关键词等，这些信息有助于计算单词在网页中的重要程度。同时，

对于 HTML 网页来说，除了标题和正文以外，会有许多广告链接以及公共的频

道链接，这些链接和文本正文一点关系也没有，在提取网页内容的时候，也需

要过滤这些无用的链接。例如某个网站有“产品介绍”频道，因为导航条在网站

内每个网页都有，若不过滤导航条链接，在搜索“产品介绍”的时候，则网站内

每个网页都会搜索到，无疑会带来大量垃圾信息。过滤这些无效链接需要统计

大量的网页结构规律，抽取一些共性，统一过滤；对于一些重要而结果特殊的

网站，还需要个别处理。这就需要网络蜘蛛的设计有一定的扩展性。

　　对于多媒体、图片等文件，一般是通过链接的锚文本（即，链接文本）和

相关的文件注释来判断这些文件的内容。例如有一个链接文字为“张曼玉照片 ”，

其链接指向一张 bmp 格式的图片，那么网络蜘蛛就知道这张图片的内容是“张

曼玉的照片”。这样，在搜索“张曼玉”和“照片”的时候都能让搜索引擎找到这张

图片。另外，许多多媒体文件中有文件属性，考虑这些属性也可以更好的了解

文件的内容。

　　动态网页一直是网络蜘蛛面临的难题。所谓动态网页，是相对于静态网页

而言，是由程序自动生成的页面，这样的好处是可以快速统一更改网页风格，

也可以减少网页所占服务器的空间，但同样给网络蜘蛛的抓取带来一些麻烦。

由于开发语言不断的增多，动态网页的类型也越来越多，如：asp、jsp、php

等。这些类型的网页对于网络蜘蛛来说，可能还稍微容易一些。网络蜘蛛比较

难于处理的是一些脚本语言（如 VBScript 和 javascript）生成的网页，如果

要完善的处理好这些网页，网络蜘蛛需要有自己的脚本解释程序。对于许多数

据是放在数据库的网站，需要通过本网站的数据库搜索才能获得信息，这些给

网络蜘蛛的抓取带来很大的困难。对于这类网站，如果网站设计者希望这些数

据能被搜索引擎搜索，则需要提供一种可以遍历整个数据库内容的方法。

　　对于网页内容的提取，一直是网络蜘蛛中重要的技术。整个系统一般采用

插件的形式，通过一个插件管理服务程序，遇到不同格式的网页采用不同的插

件处理。这种方式的好处在于扩充性好，以后每发现一种新的类型，就可以把

其处理方式做成一个插件补充到插件管理服务程序之中。

　　更新周期

　　由于网站的内容经常在变化，因此网络蜘蛛也需不断的更新其抓取网页的

内容，这就需要网络蜘蛛按照一定的周期去扫描网站，查看哪些页面是需要更

新的页面，哪些页面是新增页面，哪些页面是已经过期的死链接。

　　搜索引擎的更新周期对搜索引擎搜索的查全率有很大影响。如果更新周期

太长，则总会有一部分新生成的网页搜索不到；周期过短，技术实现会有一定

难度，而且会对带宽、服务器的资源都有浪费。搜索引擎的网络蜘蛛并不是所

有的网站都采用同一个周期进行更新，对于一些重要的更新量大的网站，更新

的周期短，如有些新闻网站，几个小时就更新一次；相反对于一些不重要的网

站，更新的周期就长，可能一两个月才更新一次。

　　一般来说，网络蜘蛛在更新网站内容的时候，不用把网站网页重新抓取一

遍，对于大部分的网页，只需要判断网页的属性（主要是日期），把得到的属

性和上次抓取的属性相比较，如果一样则不用更新。

 Spider 的实现细节

a. URL 的组织和管理考虑到系统自身的资源和时间有限，Spider 程序应尽可

能的对链接进行筛选，以保证获取信息的质量和效率。Spider 程序对新 URL

的选择往往与搜索引擎的类型、目标集合、能够处理信息的类型、资源的限制

和是否支持 Robots 限制协议有关。概括为以下几点: 访问过的和重复的 URI

排除文件类型必须被系统处理，不能处理的 URL 排除不在目标集合中的排除

被 Rohots. txt 限制的排除 URL 排序也是减轻系统负担的重要手段之一。这就

要求计算 URL 的重要性，如果评估新 URI 的重要性较高，则会冲掉旧的

URL。无论任何情况下，对 Spider 而言，一首先访问目标集合中的重要站点

都是意义和重要的。但是一个页面的重要性的准确评估只能在分析其内容之后

进行。可以根据一个页面链接数量的多少来评估此页面是否重要;或者对 uRL

地址进行解析其中的内容例如以“. com", ". edu. c;n”就较为重要一些;或，或

者可以根据页而标题与当前的热点问题是否相近或相关来评定其页面的重要性。

决定网站或页面的重要性的因素很多，也根据各个搜索引擎的侧重点不同而各

异，最终的评估方法都依赖于该搜索引擎对于资源获取的要求来决定。影响

Spider 速度的一种重要因素是 DNS 查询，为此每个 Spider 都要维护一个自

己的 DNS 缓冲。这样每个链接都处于不同的状态，包括:DNS 查询、连接到主

机、发送请求、得到响应。这些因素综合起来使得 Spider 变成一个非常复杂的

系统。

b. Spider 的遍历规则页面的遍历主要有两种方式:深度遍历和广度遍历。深度

遍历算法可以获得的信息较为集中，信息比较完整，但覆盖面就比较有限，广

度遍历算法则刚好相反。

c. Spider 实现中的主要问题虽然 Spider 的功能很强，但也存在不少的问题:

(1)如果一组 URL 地址没有被组外 URL 所链接到，那么 Spider 就找不到它们。

由于 spi der 不能更新过快(因为网络带宽是有限的，更新过快就会影响其他用

户的正常使用)，难免有不能及时加入的新网站或新页面。

(2)spider 程序在遍历 Web 时也存在危险，很可能遇到一个环链接而陷入死循

环中。简单的避免方法就是忽略已访问过的 URL,或限制网站的遍历深度。

(3) Spider 程序时大型搜索引擎中很脆弱的部分，因为它与很多的 Wcb 报务

器、不同的域名服务器打交道，而这些服务完全在系统的控制之外。由于网络

上包含了大量的垃圾信息，Spider 很可能会收取这些垃圾信息。一个页而出

现问题也很可能引至 Spider 程序中止、崩溃或其他不可预料的行为。囚此访问

Internet 的 Spider 程序应该设计得非常强壮，充分考虑各种可能遇到的情况，

让 Spider 在遇到各种情况时可以采取相应的处理行为，而不至于获得一些垃

圾信息或者直接就对程序本身造成危害。

Spider 构架

发现、搜集网页信息需要有高性能的“网络蜘蛛”程序〔Spider〕去自动地在互

联网中搜索信息。一个典型的网络蜘蛛工作的方式:查看一个页面，并从中找

到相关信息，然后它再从该页面的所有链接中出发，继续寻找相关的信息，以

此类推。网络蜘蛛在搜索引擎整体结构中的位置如下图所示: 初始化时，网络

蜘蛛一般指向一个 URL ( Uniform Resource Locator)池。在遍历 Internet

的过程中，按照深度优先或广度优先或其他启发式算法从 URL 池中取出若干

URL 进行处理，同时将未访问的 URL 放入 URL 池中，这样处理直到 URL 池空

为止。对 Web 文档的索引则根据文档的标题、首段落甚至整个页面内容进行，

这取决于搜索服务的数据收集策略。

网络蜘蛛在漫游的过程中，根据页面的标题、头、链接等生成摘要放在索引数

据库中。如果是全文搜索，还需要将整个页面的内容保存到本地数据库。网络

蜘蛛为实现其快速地浏览整个互联网，通常在技术上采用抢先式多线程技术实

现在网上搜索信息。通过抢先式多线程的使用，你能索引一个基于 URL 链接的

剩余33页未读，继续阅读

评论收藏

内容反馈

stykwq

粉丝: 1
资源: 27

java网络爬虫实例2020

评论0

最新资源

java网络爬虫实例2020

评论0

java网络爬虫实例

Java爬虫案例

java爬虫案例

Java 网络爬虫代码例子

java爬虫实例

Java爬虫详细完整源码实例

java 爬虫

nutch爬虫+java+eclipse

Java爬虫，信息抓取的实现 完整实例源码

java小爬虫入门案例

java网络爬虫实例重点文档.doc

Java爬虫实例完整源码

java网络爬虫demo

java实现一个简单的网络爬虫代码示例

Java爬虫实例附源代码和说明

Java网络爬虫源码

Java编写多个爬虫实例

Java WebSocket爬虫实例

Java网络爬虫简单实现.pdf

java爬虫的实例代码+java清除空文件夹的代码

[搜索链接]Java网络爬虫(蜘蛛)源码_zhizhu.zip

java爬虫抓取网页数据教程(20210809124656).pdf

java网络爬虫代码

Java爬虫完整实例源码.zip

用Java实现网络爬虫（或互联网蜘蛛）

Java网络爬虫(蜘蛛)源码.zip

java网络爬虫案例

基于Socket和HttpURLConnection的爬虫实例

最新资源

Java爬虫，信息抓取的实现完整实例源码