分布式文件系统HDFS(Hadoop Distributed File System)是Hadoop生态系统中的一部分,旨在运行于大规模数据集的分布式环境中,具有高度容错性和高度可用性。它的设计目标是能够管理超大规模的数据集,支持高吞吐量数据访问,适用于部署在廉价硬件上的环境中。
HDFS的应用场景主要包括存储超大文件、采用流式数据访问方式、运行于商业硬件上以及为数据存储提供所需的扩展能力。例如,它可以用于存储和分析大规模数据集,这些数据集经常从数据源生成或拷贝,然后在其上做很多分析工作。然而,HDFS不适合低延时的数据访问和大量小文件的场景。