• 网络爬虫SearchCrawler

    该程序是利用Java实现的搜索程序,可以搜索出摸个网站内的所有网页。可以对输入的网址利用层次和数量限制进行搜索。现在所有搜索引擎都是用利用爬虫进行网页的搜索的。 比如输入www.***.com 限制搜索10000个网页,最多搜索5层。在程序执行完毕后,会扫描出所有的网址,并输入到D:\out1文件中。 搜索的网页数量和层次可以自己设定,不推荐进行站外搜索,同样不推荐扫描层次超过5层(其实5层已经足够了),以免超过内存容量,导致系统出错。

    4
    72
    4KB
    2011-06-29
    9
关注 私信
上传资源赚积分or赚钱