Hadoop权威指南(第2版).资源-CSDN文库

共3个文件

url：2个

pdf：1个

5星 · 超过95%的资源需积分: 9 133 浏览量 2011-09-30 09:08:07 上传评论 2 收藏 5.78MB RAR 举报

Hadoop是项目的总称，起源于作者儿子的一只玩具大象的名字。主要是由HDFS、MapReduce和Hbase组成。　　HDFS是Google File System（GFS）的开源实现。　　MapReduce是Google MapReduce的开源实现。　　HBase是Google BigTable的开源实现。　　这个分布式框架很有创造性，而且有极大的扩展性，使得Google在系统吞吐量上有很大的竞争力。因此Apache基金会用Java实现了一个开源版本，支持Fedora、Ubuntu等Linux平台。雅虎和硅谷风险投资公司Benchmark Capital 6月28日联合宣布，他们将联合成立一家名为Hortonworks的新公司，接管被广泛应用的数据分析软件Hadoop的开发工作。　　Hadoop实现了HDFS文件系统和MapRecue。用户只要继承MapReduceBase，提供分别实现Map和Reduce的两个类，并注册Job即可自动分布式运行。　　目前Release版本是0.20.203.0。还不成熟，但是已经集群规模已经可以达到4000个节点，是由Yahoo!实验室中构建的。下面是此集群的相关数据: 　　· 4000 节点　　· 2 x quad core Xeons@2.5ghz per 节点　　· 4 x 1TB SATA Disk per 节点　　· 8G RAM per 节点　　· 千兆带宽 per 节点　　· 每机架有40个节点　　· 每个机架有4千兆以太网上行链路　　· Redhat Linux AS4 （ Nahant update 5 ）　　· Sun Java JDK1.6.0_05 - b13 　　· 所以整个集群有30000多个CPU，近16PB的磁盘空间！　　HDFS把节点分成两类：NameNode和DataNode。NameNode是唯一的，程序与之通信，然后从DataNode上存取文件。这些操作是透明的，与普通的文件系统API没有区别。　　MapReduce则是JobTracker节点为主，分配工作以及负责和用户程序通信。　　HDFS和MapReduce实现是完全分离的，并不是没有HDFS就不能MapReduce运算。　　Hadoop也跟其他云计算项目有共同点和目标：实现海量数据的计算。而进行海量计算需要一个稳定的，安全的数据容器，才有了Hadoop分布式文件系统（HDFS，Hadoop Distributed File System）。　　HDFS通信部分使用org.apache.hadoop.ipc，可以很快使用RPC.Server.start()构造一个节点，具体业务功能还需自己实现。针对HDFS的业务则为数据流的读写，NameNode/DataNode的通信等。　　MapReduce主要在org.apache.hadoop.mapred，实现提供的接口类，并完成节点通信（可以不是hadoop通信接口），就能进行MapReduce运算。　　目前这个项目还在进行中，还没有到达1.0版本，和Google系统的差距也非常大，但是进步非常快，值得关注。　　另外，这是云计算（Cloud Computing）的初级阶段的实现，是通向未来的桥梁。

资源推荐

资源详情

资源评论