基本情况
程序演示
基本情况
Basic information
自建数据集:基于网络爬虫工具实现。网络爬虫(又称为网页蜘蛛,网络机器
人,在FOFA社区中间,更经常的称为网页追逐者),是一种按照一定的规则
,自动地抓取万维网信息的程序或者脚本。本项目中,通过网络爬虫工具爬取
了“民船”“战斗机”“客机”“潜艇”“军舰”几类图片。
国外主题爬虫研究始于上世纪90年代,提出一些获取特定内容的爬行策略,只
是当时还没有提出主题网络爬虫概念。1994年,DeBra设计了Fish-search 算
法用来指导爬虫抓取方向,在特定的范围内爬取网页。目前技术有:将网页划
为不同区块,使用区块相关度评分来衡量页面的主题相关度,也有Seyfi 等将
基于内容和基于链接的方法相结合构建了 Treasure-Crawler 爬虫系统,用来
发现与主题有关的页面;方启明等通过在配置文件里定义目标网站的范围和类
型,实现可定制主题爬虫。
实验原理