东网站建设,最好看的免费观看全集电视剧,网站建设业务员提成,商务网站规划建设与管理答案目录
一 什么是大数据#xff1f;
二 大数据特征
三 分布式计算
四 Hadoop是什么?
五 Hadoop发展及版本
六 为什么要使用Hadoop
七 Hadoop vs. RDBMS
八 Hadoop生态圈
九 Hadoop架构 一 什么是大数据#xff1f;
大数据是指无法在一定时间内用常规软件工具对其内…目录
一 什么是大数据
二 大数据特征
三 分布式计算
四 Hadoop是什么?
五 Hadoop发展及版本
六 为什么要使用Hadoop
七 Hadoop vs. RDBMS
八 Hadoop生态圈
九 Hadoop架构 一 什么是大数据
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。
大数据技术要解决的问题海量数据存储和海量数据计算 二 大数据特征
4V特征 Volume(大数据量)90% 的数据是过去两年产生Velocity(速度快)数据增长速度快时效性高 Variety(多样化)数据种类和来源多样化 结构化数据如表形式的数据、半结构化数据如 json、非结构化数据如日志信息Value(价值密度低)需挖掘获取数据价值固有特征 时效性不可变性 三 分布式计算
分布式计算将较大的数据分成小的部分进行处理。 传统分布式计算 新的分布式计算 - Hadoop 计算方式 将数据复制到计算节点 在不同数据节点并行计算 可处理数据量 小数据量 大数据量 CPU性能限制 受CPU限制较大 受单台设备限制小 提升计算能力 提升单台机器计算能力 扩展低成本服务器集群 四 Hadoop是什么?
Hadoop是一个开源分布式系统架构解决海量数据存储和海量数据计算的问题处理海量数据的架构首选非常快得完成大数据计算任务已发展成为一个Hadoop生态圈 五 Hadoop发展及版本 Hadoop起源于搜索引擎Apache Nutch 创始人Doug Cutting2004年 - 最初版本实施2008年 - 成为Apache顶级项目Hadoop发行版本 社区版Apache HadoopCloudera发行版CDHHortonworks发行版HDP 六 为什么要使用Hadoop
高扩展性 在集群间分配任务数据可方便的扩展数以千计的节点高可靠性 Hadoop底层维护多个数据副本高容错性 Hadoop框架能够自动将失败的任务重新分配低成本 Hadoop架构允许部署在廉价的机器上灵活可存储任意类型数据开源社区活跃 七 Hadoop vs. RDBMS
Hadoop与关系型数据库对比 RDBMS Hadoop 格式 写数据时要求 读数据时要求 速度 读数据速度快 写数据速度快 数据监管 标准结构化 任意结构数据 数据处理 有限的处理能力 强大的处理能力 数据类型 结构化数据 结构化、半结构化、非结构化 应用场景 交互式OLAP分析 ACID事务处理 企业业务系统 处理非结构化数据 海量数据存储计算 八 Hadoop生态圈 九 Hadoop架构
HDFS(Hadoop Distributed File System) 分布式文件系统解决分布式存储MapReduce 分布式计算框架YARN 分布式资源管理系统 在Hadoop 2.x中引入Common 支持所有其他模块的公共工具程序