当前位置: 首页 > news >正文

江门网站建设推广西山区城市建设局网站

江门网站建设推广,西山区城市建设局网站,线上营销培训,企业购物网站开发面对企业级数据量#xff0c;单机容量太小#xff0c;无法存储海量的数据#xff0c;这时候就需要用到多台机器存储#xff0c;并统一管理分布在集群上的文件#xff0c;这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术#xff0c;Ceph是能处理海量非结…面对企业级数据量单机容量太小无法存储海量的数据这时候就需要用到多台机器存储并统一管理分布在集群上的文件这样就形成了分布式文件系统。HDFS是Hadoop下的分布式文件系统技术Ceph是能处理海量非结构化数据存储的对象存储技术本文将对他们的架构原理、特性和优缺点做介绍。 — 分布式文件系统HDFS — HDFS全称为Hadoop Distributed File System在2006年由Doug Cutting发布了第一个版本是运行在通用硬件上的分布式文件系统。它提供了一个高度容错性和高吞吐量的海量数据存储解决方案。HDFS的推出给当时的行业提供了一个低成本、高可扩展的数据存储方案尤其适用于互联网行业的海量用户访问日志的存储和检索需求因此一经推出就受到了互联网行业的欢迎以Yahoo为代表的互联网企业快速构建了基于HDFS的企业数仓从而加速了Hadoop在互联网行业内的快速落地后来这个Yahoo团队独立出来创立了Hortonworks。此后经过3~4年的快速发展海外的大型企业都开始拥抱HDFS各种新型应用场景开始出现并创造了较大的业务价值。从2009年开始国内的Hadoop应用开始出现并最早在运营商和互联网行业落地。作为Hadoop体系的最成功的项目HDFS已经在各种大型在线服务和数据存储系统中得到广泛应用已经成为私有化部署领域海量数据存储的实施标准。 HDFS通过一个高效的分布式算法将数据的访问和存储分布在大量服务器之中在可靠地多备份存储的同时还能将访问分布在集群中的各个服务器之上。在构架设计上NameNode管理元数据包括文件目录树文件-块映射块-数据服务器映射表等。DataNode负责存储数据、以及响应数据读写请求客户端与NameNode交互进行文件创建/删除/寻址等操作之后直接与DataNode交互进行文件I/O。 HDFS通过副本机制保证数据的存储安全与高可靠默认如上图所示配置为3副本每个数据块分布在不同的服务器之上。在用户访问时HDFS将会计算使用网络最近的和访问量最小的服务器给用户提供访问。HDFS支持文件的创建、删除、读取与追加对于一个较大的文件HDFS将文件的不同部分存放于不同服务器之上。在访问大型文件时系统可以并行从服务器阵列中的多个服务器并行读入增加了大文件读入的访问带宽。通过以上实现HDFS通过分布式计算的算法将数据访问均摊到服务器阵列中的每个服务器的多个数据拷贝之上单个硬盘或服务器的吞吐量限制都可以突破提供了极高的数据吞吐量。 HDFS将文件的数据块分配信息存放在NameNode服务器之上文件数据块的信息分布地存放在DataNode服务器上。当整个系统容量需要扩充时只需要增加DataNode的数量HDFS后续通过balance算法将数据块搬迁到新的DataNode实例中。通过以上实现HDFS可以做到在不停止服务的情况下横向扩容和数据重新分布。HDFS文件系统假设系统故障服务器、网络、存储故障等是常态并通过多方面措施来保证数据的可靠性。数据在写入时被复制多份可以通过用户自定义的复制策略分布到物理位置不同的服务器上数据在读写时将自动进行数据的校验一旦发现数据校验错误将重新进行复制。 受限于当时的需求背景和硬件能力水平HDFS也有一些明显的架构问题随着技术和需求的演进而逐渐成为瓶颈。通过NameNode来管理元数据有它的架构问题首先是服务高可用问题在Hadoop 1.0时代这是最大的架构问题不过在2013年Hadoop 2.0中通过Master-Slave的方式得以解决另外每个存储的文件都必须在NameNode的内存中维护一个描述符从而占据内存空间当文件数据量太大时就会受限于单个NameNode的内存资源从而导致性能瓶颈一般单个集群文件数量在亿级别以上时社区在2017年推出的Hadoop 2.9版本提供HDFS Router Federation功能通过不同的NameService处理挂载在HDFS上不同目录下的文件的方式来缓解这个问题。 存储成本问题对于大型HDFS集群是个更大的问题HDFS的三副本策略保证了性能和存储成本的均衡适合于热数据和温数据的存储和处理对于冷数据存储来说成本就偏高尤其与对象存储类的解决方案相比。开源社区直到2019年Hadoop 3.0里才推出了Erasure Code技术星环科技在2014年推出HDFS EC技术但由于推出时间较晚和技术成熟度等原因目前并没有大规模落地。与云计算的存储技术融合是另外一个重要的架构问题公有云有成熟的云存储方案相对HDFS成本更低与云平台的调度系统协调的更好而HDFS只能定位作为云上的企业存储的一个细分方案之一。如各个云平台都推出EMRElastic MapReduce类产品如Google Dataproc阿里云EMR等但总体受欢迎度比较一般缺少与云上其他数据分析与处理系统的全方位的打通和互联。 从2012年开始国内重点行业的中大型企业都已经开始了大数据的布局到2019年像金融、运营商、能源、政府公安等重要行业大部分企业都已经构建了基于HDFS的数据存储系统推动了一批重点的数字化应用的推广。如金融行业的ODS、历史数据存储、数据湖、科技监管类应用运营商的经分系统、电子围栏、数字营销系统等都已经是广泛使用的业务系统。由于国内外行业需求的差异性以及对公有云的接受程度不同HDFS在国内仍然是一个非常重要的数据存储技术也拥有更好的技术和应用生态因此有着更为完善的技术生命力。 — 对象存储Ceph — 对象存储的设计目标是为了处理海量非结构化数据的存储问题如邮件、图谱、视频、音频以及其他多媒体文件并在社交、移动等应用中大量被使用此外也大量被用于数据备份和灾备场景。 在业务开发层一般提供基于S3协议的开发接口这套API提供了一整套的RESTful API可以让应用可以通过HTTP PUT或GET命令来操作数据对象每个对象有个自己的访问地址。与HDFS等文件类存储采用目录结构或多层级树形结构不同对象存储在物理存储上一般采用一个扁平的数据存储结构每个对象都是一个包括元数据、数据和唯一标识ID的完备数据描述这样应用可以非常方便的去找到并访问这个数据对象在存储的管理上也相对比较简单尤其是大部分应用场景下数据对象都存储在远端的云服务器上。对象存储管理软件会将所有的硬盘资源抽象为一个存储池用于数据的物理化存储。相对于文件类存储对象存储相对来说成本更低但相对数据分析的性能不佳需要配套各种分析的缓存技术来能提供比较好的数据分析性能。 Ceph是一个开源的对象存储项目诞生于2004年提供对象、块和文件存储其中对象存储功能在业内非常受欢迎在国内已经有很多私有化云平台的对象存储生产落地案例。一个Ceph的存储集群一般包括三个部分 Ceph存储集群服务端在Ceph存储集群服务端架构中核心组件有Monitor服务、OSD(Object Storage Daemons)服务和Manager服务等。其中Mon服务用于维护存储系统的硬件逻辑关系主要是服务器和硬盘等在线信息。Mon服务通过集群的方式保证其服务的可用性。OSD服务用于实现对磁盘的管理并实现真正的数据读写通常一个磁盘对应一个OSD服务。 Ceph Clients以library方式提供的客户端可以用于访问Ceph服务端它提供了3种协议来访问包括对象存储的RADOSGW、块存储端的RBD以及文件存储的CephFS。 Ceph 协议用于服务端和Client的通信协议。 由于一个分布式存储集群管理的对象数量非常多可能是百万级甚至是千万级以上因此OSD的数量也会比较多为了有好的管理效率Ceph引入了Pool、Place GroupsPGs、对象这三级逻辑。PG是一个资源池的子集负责数据对象的组织和位置映射一个PG负责组织一批对象数据在千级以上。同时一个PG会被映射到多个OSD也就是由多个OSD来负责其组织的对象的存储和查询而每个OSD都会承载大量的PG因此PG和OSD之间是多对多的映射关系。 当用户要将数据存储到Ceph集群时存储数据会被分割成多个对象Ceph的最小存储单元每个对象都有一个唯一的id每个对象的大小是可以配置的默认为4MB。Ceph通过自创的CRUSH哈希算法将若干个对象映射到PG上形成一个对象与PG的逻辑组合并根据PG所在的Pool的副本数将数据复制到多个OSD上保证数据的高可用。 图片来源于https://www.wenjiangun.com/blog/952/ 在集群的可扩展性上Ceph可以做到几乎线性扩展。CRUSH 通过一种伪随机的方式将数据进行分布因此 OSD 的利用就能够准确地通过二项式建模或者常规方式分配。无论哪一个都可以取得完美的随机过程。随着 PG 的增加差异就下降对于每个 OSD 100 个 PG的情况下标准差是 10%对于1000 个的情况下为 3%。线性的分布策略极好地将负载在集群中平衡。CRUSH 通过卸载所有的分配碎片到一个特定的 OSD 上从而来修正这样的问题。与哈希以及线性策略不同CRUSH 同时也最小化了数据在集群扩展产生的迁移同时又保证了负载的平衡。CRUSH 的计算复杂度为 Olog(n)对于有 n 个 OSD 的集群因此只需要 10 几个微秒就可以使集群增长到好几千个 OSDs。 值得关注的是Ceph客户端所有的读写操作都需要经过代理节点一旦集群并发量较大代理节点就容易成为单点瓶颈。在数据的一致性方面Ceph只能支持数据的最终一致性。 — 小结— 本文从架构和原理介绍了高度容错性、高吞吐量的分布式文件系统HDFS和处理海量非结构化数据存储的对象存储技术Ceph现在各项技术发展比较快可能存在技术描述跟最新技术发展情况不太一致的情况。那么在特定场景下数据的快速查询、快速写入和可扩展性也是必不可少的下一篇我们将介绍搜索引擎技术和宽表存储技术。
http://www.dnsts.com.cn/news/53577.html

相关文章:

  • 做一直播网站要多少钱营销网站制作企业
  • 网站注销怎么做消咸鱼网站交易付款怎么做
  • 什么网站发布建设标准公众号如何做微网站
  • 豆芽网站建设 优帮云网站建成后应该如何推广
  • 正规的南昌网站建设网页设计软件介绍
  • 网站底部浮动代码国家工商注册网
  • 南充做网站多少钱简单网站建设规划方案
  • 四川华泰建设集团网站百度收录不了网站吗
  • html5网站链接标签wordpress 点击排行
  • 端子东莞网站建设智能营销客户管理系统
  • 做视频网站推广挣钱吗广东专业网站优化公司
  • 网站设计简单网页百度搜索网站优化
  • 建设信用卡中心网站百度推送 wordpress
  • 做酒的网站托者设计吧官网
  • 永久免费建站空间推广普通话主题班会记录
  • 台州网站专业制作公司流程管理系统
  • 做网站策划遇到的问题软件开放和网站开发
  • 怎么做返利网之类的网站北京网络推广平台
  • cms网站地图模板如何做好网站内更新
  • 手机qq钓鱼网站怎么做临沂网站建设培训
  • 个人网站建设实验心得航佳网站建设
  • c 转网站开发国外的旅游网站做的如何
  • 公明 网站建设做钓鱼网站查处
  • 网站发外链达内教育学费价目表
  • 淮北市做网站最好的公司很多网站没有后台
  • 济南建设工程交易中心网站北京做招聘网站的公司
  • 用美图秀秀做网站图片家居网站关键词怎么做
  • 建站服务论坛精神文明建设网站专栏
  • 通州网站网站建设常见的网络营销方式有哪几种
  • 长沙模板建站源码html网页制作的软件下载