搭建网站需要学什么,网站开发阶段,网站做推广百度好还是360好,怎么给新网站做推广目录 一、介绍二、HDFS设计原理2.1 HDFS 架构2.2 数据复制复制的实现原理 三、HDFS的特点四、图解HDFS存储原理1. 写过程2. 读过程3. HDFS故障类型和其检测方法故障类型和其检测方法读写故障的处理DataNode 故障处理副本布局策略 一、介绍
HDFS #xff08;Hadoop Distribute… 目录 一、介绍二、HDFS设计原理2.1 HDFS 架构2.2 数据复制复制的实现原理 三、HDFS的特点四、图解HDFS存储原理1. 写过程2. 读过程3. HDFS故障类型和其检测方法故障类型和其检测方法读写故障的处理DataNode 故障处理副本布局策略 一、介绍
HDFS Hadoop Distributed File System是 Hadoop 下的分布式文件系统具有高容错、高吞吐量等特性可以部署在低成本的硬件上。
二、HDFS设计原理
2.1 HDFS 架构
HDFS 遵循主/从架构由单个 NameNode(NN) 和多个 DataNode(DN) 组成
NameNode : 文件系统的管理节点维护整个系统的元数据包括文件目录树、文件/目录信息以及每个文件对应的block列表等DataNode文件系统的数据节点提供真实文件数据的存储服务。 注
HDFS在存储时以block的形式存储数据默认大小为128M2.x和3.x版本 如果文件超过128M就会被切分为多个block存储如果文件不足128M则只产生一个block只占用实际大小的磁盘空间
2.2 数据复制
为了保证容错性HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列block每个块由多个副本来保证容错块的大小和复制因子可以自行配置默认情况下块大小是 128M默认复制因子是 3
复制的实现原理
大型的 HDFS 实例在通常分布在多个机架的多台服务器上。在大多数情况下同一机架中的服务器间的网络带宽大于不同机架中的服务器之间的带宽。因此 HDFS 采用机架感知副本放置策略对于常见情况当复制因子为 3 时HDFS 的放置策略是
在写入程序位于 datanode 上时就优先将写入文件的一个副本放置在该 datanode 上否则放在随机 datanode 上之后在另一个远程机架上的任意一个节点上放置另一个副本并在该机架上的另一个节点上放置最后一个副本
此策略可以减少机架间的写入流量从而提高写入性能。 注意同一个 dataNode 上不允许有同一个块的多个副本
三、HDFS的特点
优点 通透性即使有通过网络访问文件的操作但在程序和用户看来就像是在访问本地磁盘高容错多副本保证即使部分硬件损坏也不会导致全部数据的丢失性价比高可以运行在大量的廉价机器上节约成本 缺点 不适合低延时数据访问数据延时无法支持“毫秒”级别的数据存储不适合小文件存储主节点的内存是有限的不论大小文件都会在主节点中保存元信息存储大量小文件没有意义违背HDFS的设计理念不支持文件并发写入和随机修改一个文件同时只能有一个线程执行写操作。只支持文件追加不支持数据的随机访问和修改
四、图解HDFS存储原理
以下图片引用自博客翻译经典 HDFS 原理讲解漫画
1. 写过程 2. 读过程 3. HDFS故障类型和其检测方法
故障类型和其检测方法 读写故障的处理 DataNode 故障处理 副本布局策略