NWEBCRAWLER(C#网络链接爬虫)
这是一个C#下的开源网络爬虫,你可以更改Fetch函数,以实现自己的应用。 按照你的需求,Fetch函数应该做以下工作: 1、检测抽取出的URL是否是本站的URL,如果是,继续爬行,如果不是,直接丢弃; 2、检测URL是否能正常访问(用HttpWebRequest),如果不能,那么是死链。
3
209
664KB
2011-12-01
10