什么是爬虫?
百度搜索引擎使用了高性能的"网络蜘蛛"程序自动的在互联网中搜索信息,可定制、
高扩展性的调度算法使得搜索器能在极短的时间内收集到最大数量的互联网信息。
所谓爬虫就是能够快速在互联网里面搜集到尽可能多的信息。
简单爬虫程序(抓取某个网页所有图片)
基本代码结构:
//获得 html 文本内容
String HTML = cm.getHtml(URL);
//获取图片标签
List<String> imgUrl = cm.getImageUrl(HTML);
//获取图片 src 地址
List<String> imgSrc = cm.getImageSrc(imgUrl);
//下载图片
cm.Download(imgSrc);
详细代码:
publicclass
地址
private stac nal URL
!"#$" #$%& !$'%( )*+
获取
路径的正则
privatestacnalIMGSRC_REG0&45&43601773-+
publicstacvoid.03/
try
new./+
获得 8
文本内容
9:;<98.URL/+
获取图片标签
<,2=8=8.9:;</+
获取图片