• 非常垃圾的Java爬虫项目

    个人写的垃圾的爬虫项目,现在遇到瓶颈了,很多东西都已经想好了,但是不知道具体应该怎么写,希望那位大神看到后能给点评一下,给出之后的扩展方案.现在准备添加登陆内容获取,JS内容生成为正常的Document树.使用NoSql构建去重库. 取到链接.查看去重库中是否存在,如存在则不加入到List中.还有.感觉List不是一个很好的方式,希望大神给出代替方案...

    0
    89
    3.29MB
    2014-05-13
    10
关注 私信
上传资源赚积分or赚钱