专业的销售网站,网站建设开发设计营销公司厦门,医疗卫生网站前置审批,现在装修流行什么样的风格一、HDFS异构存储类型
1.1 冷、热、温、冻数据
通常#xff0c;公司或者组织总是有相当多的历史数据占用昂贵的存储空间。典型的数据使用模式是新传入的数据被应用程序大量使用#xff0c;从而该数据被标记为热数据。随着时间的推移#xff0c;存储的数据每周…一、HDFS异构存储类型
1.1 冷、热、温、冻数据
通常公司或者组织总是有相当多的历史数据占用昂贵的存储空间。典型的数据使用模式是新传入的数据被应用程序大量使用从而该数据被标记为热数据。随着时间的推移存储的数据每周被访问几次而不是一天几次这时认为其是暖数据。在接下来的几周和几个月中数据使用率下降得更多成为冷数据。如果很少使用数据例如每年查询一次或两次这时甚至可以根据其年龄创建第四个数据分类并将这组很少被查询的旧数据称为冻结数据。 Hadoop允许将不是热数据或者活跃数据的数据分配到比较便宜的存储上用于归档或冷存储。可以设置存储策略将较旧的数据从昂贵的高性能存储上转移到性价比较低(较便宜)的存储设备上。 Hadoop 2.5及以上版本都支持存储策略在该策略下不仅可以在默认的传统磁盘上存储HDFS数据还可以在SSD(固态硬盘)上存储数据。
1.2 什么是异构存储
异构存储是Hadoop2.6.0版本出现的新特性,可以根据各个存储介质读写特性不同进行选择。 例如冷热数据的存储对冷数据采取容量大读写性能不高的存储介质如机械硬盘对于热数据可使用SSD硬盘存储。在读写效率上性能差距大。异构特性允许我们对不同文件选择不同的存储介质进行保存以实现机器性能的最大化。
1.3 HDFS异构存储类型
HDFS中声明定义了4种异构存储类型
RAM_DISK(内存) SSD(固态硬盘) DISK(机械硬盘)默认使用。 ARCHIVE(高密度存储介质存储档案历史数据) 其中true和false指是否使用transient, transient代表非持久化,而只有内存存储是transient
如何让HDFS知道集群中的数据存储目录是哪种类型存储介质
配置属性时主动声明。HDFS并没有自动检测的能力。配置参数dfs.datanode.data.dir [SSD]file:///grid/dn/ssdO 如果目录前没有带上SSD] [DISK] [ARCHIVE] [RAM_DISK 这4种类型中的任何一种则默认是DISK类型 。
二、存储类型选择策略
2.1 块存储类型选择策略
1 块存储指的是对HDFS文件的数据块副本储存。
2对于数据的存储介质HDFS的BlockStoragePolicySuite 类内部定义了6种策略。
HOT默认策略 COLD WARM ALL_SSD ONE_SSD LAZY_PERSIST
3前三种根据冷热数据区分后三种根据磁盘性质区分。 2.2 块存储类型选择策略--说明
HOT用于存储和计算。流行且仍用于处理的数据将保留在此策略中。所有副本都存储在DISK中。COLD仅适用于计算量有限的存储。不再使用的数据或需要归档的数据从热存储移动到冷存储。所有副本都存储在ARCHIVE中。WARM部分热和部分冷。热时其某些副本存储在DISK中其余副本存储在ARCHIVE中。All_SSD将所有副本存储在SSD中。One_SSD用于将副本之一存储在SSD中。其余副本存储在DISK中。Lazy_Persist用于在内存中写入具有单个副本的块。首先将副本写入RAM_DISK然后将其延迟保存在DISK中。
2.3 块存储类型选择策略--速度快慢比较 三、 HDFS内存存储策略支持--LAZY PERSIST
HDFS支持把数据写入由DataNode管理的堆外内存DataNode异步地将内存中数据刷新到磁盘从而减少代价较高的磁盘IO操作这种写入称为 Lazy Persist写入。该特性从Apache Hadoop 2.6.0开始支持。
3.1 HDFS内存存储策略支持--LAZY PERSIST执行流程
对目标文件目录设置 StoragePolicy 为 LAZY_PERSIST 的内存存储策略 。客户端进程向 NameNode 发起创建写文件的请求 。客户端请求到具体的 DataNode 后 DataNode 会把这些数据块写入 RAM 内存中同时启动异步线程服务将内存数据持久化写到磁盘上 。内存的异步持久化存储是指数据不是马上落盘而是懒惰的、延时地进行处理 。