网站建设吕凡科技,2345网址大全导航下载,设计师论坛平台有哪些,美食网站html代码前言
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
HDFS#xff08;hadoop分布式文件系统#xff09;
是hadoop体系中数据存储管理的基础。他是一个高度容错的系统#xff0c;能检测和应对硬件故障。
Mapreduce#xff08;分…前言
Hadoop 是一个能够对大量数据进行分布式处理的软件框架。具有可靠、高效、可伸缩的特点。
HDFShadoop分布式文件系统
是hadoop体系中数据存储管理的基础。他是一个高度容错的系统能检测和应对硬件故障。
Mapreduce分布式计算框架
mapreduce是一种计算模型用于处理大数据量的计算。其中map对应数据集上的独立元素进行指定的操作生成键-值对形式中间reduce则对中间结果中相同的键的所有值进行规约以得到最终结果。
jobtrackermaster节点只有一个管理所有作业任务/作业的监控错误处理等将任务分解成一系列任务并分派给tasktracker。tacktrackerslave节点运行 map task和reducetask并与jobtracker交互汇报任务状态。map task解析每条数据记录传递给用户编写的map并执行将输出结果写入到本地磁盘如果为map—only作业则直接写入HDFS。reduce task从map 它深刻地执行结果中远程读取输入数据对数据进行排序将数据分组传递给用户编写的reduce函数执行。
hive基于hadoop的数据仓库
hive定于了一种类似sql的查询语言hql将sql转化为mapreduce任务在hadoop上执行。
hbase分布式列存数据库
hbase是一个针对结构化数据的可伸缩高可靠高性能分布式和面向列的动态模式数据库。和传统关系型数据库不同hbase采用了bigtable的数据模型增强了稀疏排序映射表key/value。其中键由行关键字列关键字和时间戳构成hbase提供了对大规模数据的随机实时读写访问同时hbase中保存的数据可以使用mapreduce来处理它将数据存储和并行计算完美结合在一起。
zookeeper分布式协作服务
解决分布式环境下的数据管理问题统一命名状态同步集群管理配置同步等。
spark
spark是个开源的数据 分析集群计算框架最初由加州大学伯克利分校AMPLab建立于HDFS之上。spark与hadoop一样用于构建大规模延迟低的数据分析应用。spark采用Scala语言实现使用Scala作为应用框架。
spark采用基于内存的分布式数据集优化了迭代式的工作负载以及交互式查询。
与hadoop不同的是spark与Scala紧密集成Scala象管理本地collective对象那样管理分布式数据集。spark支持分布式数据集上的迭代式任务实际上可以在hadoop文件系统上与hadoop一起运行通过YARN,MESOS等实现。
storm
storm是一个分布式的容错的计算系统storm属于流处理平台多用于实时计算并更新数据库。storm也可被用于“连续计算”对数据流做连续查询在计算时将结果一流的形式输出给用户。他还可被用于“分布式RPC”,以并行的方式运行昂贵的运算。