网络爬虫-源码

所需积分/C币:5 2021-02-26 20:18:55 96KB ZIP
9
收藏 收藏
举报

什么是网络爬虫? Web搜寻器是一种软件程序,可以有条不紊和自动化地浏览万维网。 它通过递归地从一组起始页面中获取链接来收集文档。 Web搜寻器的用法 通过搜索引擎在下载页面上创建索引以执行更快的搜索 测试网页和链接的有效语法和结构。 监视站点以查看其结构或内容何时更改。 维护流行网站的镜像站点。 搜索版权侵权。 为了建立一个特殊用途的索引,例如,一个对Web上的多媒体文件中存储的内容有一定了解的索引。 系统的要求和目标 功能要求 假设我们需要爬网所有网络。 非功能性要求 可扩展性我们的服务需要具有可伸缩性,以便它可以对整个Web进行爬网,并可以用于获取数亿个Web文档。 可扩展性 我们的服务应以模块化的方式设计,并期望将新功能添加到其中。 将来可能会有较新的文档类型需要下载和处理。 遵守robots.txt排除网址 体积约束 4周内可抓取的页面数:150亿 单机设计 在

...展开详情
立即下载 低至0.43元/次 身份认证VIP会员低至7折
一个资源只可评论一次,评论内容不能少于5个字
您会向同学/朋友/同事推荐我们的CSDN下载吗?
谢谢参与!您的真实评价是我们改进的动力~
  • 至尊王者

关注 私信
上传资源赚钱or赚积分
最新推荐
网络爬虫-源码 5积分/C币 立即下载
1/0