2016-2017-1 学期《搜索引擎技术》实验报告
1 / 6
实验二:实验
一、实验目的:
根据网络爬虫的基本原理,实现一个简易网络爬虫,需要达到以下指标:
1、种子 URL为 www.swust.edu.cn;
2、至少抓取 10000 个页面;
3、至少完成 3 轮抓取,每轮给出更新的 URL及其数量;
4、实现URL判重,列出每轮爬去时重复的 URL数量;
5、数据存放到数据库中,能抽取出网页中的标题、页面生成日期( http 协
议中的时间),至少包含标题、时间、 url、抓取时间、网页正文这几个字段。
二、实验方案:
1. 爬虫分析与设计
我们组应用的是 java 来写爬虫,我们应用 SSM框架将数据库和应用
程序连接起来,可以在程序中更简单的进行数据库插入、查询等操作。
在对 url 处理的时候我们用的是 Java的 URL类,通过这个类可以获得请
求头的一些信息,例如编码方式。
如何获取 url,我们一开始遇到了一些问题,直接解析网页中的 ref
标签的时候得到的不全是网页链接,所以转换思路,我们先得到页面中
的<a>标签,然后再得到 <a>标签里边 href 中的 url,然后再对 url 进行处
理。
在处理 url 的时候,因为网页中的 url 并不是全部以 http 开头的,所
以在 url 获取部分,对 url 的格式进行判断,如果通常格式就进行修改,
例如,有的链接是 ”#”,我们就把开始搜索的 url 加到它的前边,形成一
个正确的 url。