系统用户可以通过爬虫管理模块,设置爬虫要爬取网站、网站模块的种子url标识文章的文章规则、标题规则、正文规则、时间规则、爬取的时间点等等。爬虫会根据这些种子站点的初始化信息设置,进行初始化,然后开始抓取网页。设置界面如图4-3所示。 网页下载模块是爬虫的核心模块之一,其作用是将网页从互联网上下载下来。Breadth-First由于在抓取时判断及处理条件较少,运算时间短,查全率较高31,且由于我们要抓取的站点模块主题相对集
评论星级较低,若资源使用遇到问题可联系上传者,3个工作日内问题未解决可申请退款~