01
背景介绍
问题提出
解决方案提出
后续发展
21 世纪初, NUTCH 遇到了严重的可扩展性问
题——如何解决数十亿网页的存储和索引?
2003~2004 年 , 谷歌发表的两篇论文为该问题提供了可
行的解决方案。
—— 分布式文件系统 GFS, 可用于处理海量网页的存储
—— 分布式计算框架 MapReduce ,可用于处理海量网页
的索引计算问题。
$2008 年, GFS 和 MapReduce 从 NUTCH 脱离出来命名为
Hadoop ,成为 Apache 顶级项目,迎来了它的快速发展期。
评论2
最新资源