asp网站伪静态教程,施工企业费用预算的编制的内容包括,个人制作一个网站的费用,珠海做网站建设课程视频链接#xff1a;尚硅谷Hadoop2.x框架入门
一、大数据概论
1#xff09;大数据概念 大数据#xff08;Big Data#xff09;#xff1a;指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合#xff0c;是需要新处理模式才能具有更强的决策力、洞…课程视频链接尚硅谷Hadoop2.x框架入门
一、大数据概论
1大数据概念 大数据Big Data指无法再一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据主要解决海量数据TB、PB、EB的存储和海量数据的分析计算。
2大数据特点5V Volume 大量数据规模巨大从TB到PB甚至EB级别。 Velocity高速数据生成、处理和分析的速度快如实时流数据。 Variety 多样数据类型的多样性结构化、半结构化、非结构化数据等。 起源2001年由Gartner分析师Doug Laney首次提出作为大数据的核心定义 Veracity真实性数据的质量和可信度如噪声、不确定性、数据来源的可靠性。 背景IBM等企业强调数据质量对分析结果的影响因此将其纳入核心特征。 Value 价值指的是数据价值密度相对较低即海量数据中只有少数是有价值的信息
3大数据部门组织结构 二、从Hadoop框架讨论大数据生态
1Hadoop是什么 Hadoop是由Apache基金会所开发的分布式系统基础架构。 从广义上来说Hadoop指一个更广泛的概念——Hadoop生态圈。 2Hadoop三大发行版本
Hadoop三大发行版本Apache、Cloudera、Hortonworkds Apache版本是最原始、最基础的版本对入门学习最好。 Xloudera在大型互联网企业中用的较多收费。 Hortonworks文档较好。
Apache Hadoop
官网地址https://hadoop.apache.org/releases.html 3Hadoop的优势 1高可靠性Hadoop底层维护多个数据副本所以即使Hadoop某个计算元素或存储出现故障也不会导致数据的丢失。 2高扩展性在集群间分配任务数据可方便的扩展数以千计的节点。 3高效性在MpaReduce的思想下Hadoop是并行工作的以加快任务处理速度。 4高容错性能够自动将失败的任务重新分配。 4Hadoop组成重点 在Hadoop1.x中MapReduce同时处理业务逻辑运算和资源调度耦合性较大在Hadoop2.x中增加了Yarn部分由Yarn负责资源的调度降低了耦合性。 HDFS架构概述 1NameNodenn存储文件的元数据文件名、文件目录结构文件属性等以及每个文件的块列表和块所在的DataNode等。 2DataNodedn在本地文件系统存储文件块数据以及块数据的校验和。 3Secondary NameNode2nn用来监控HDFS状态的辅助后台程序每隔一段时间获取HDFS元数据的快照。
Yarn架构概述 1ResourceManagerRM主要作用 1处理客户端请求 2监控NodeManager 3启动或监控ApplicationMaster 4资源的分配和调度
2NodeManagerNM主要作用 1管理单个节点上的资源 2处理来自ResourceManager的命令 3处理来自ApplicationMaster的命令
3ApplicationMasterAM作用 1负责数据的切分 2为应用程序申请资源并分配给内部的任务 3任务的监控与容错
4Container Container是YARN中的资源抽象它封装了某个节点上的多维度资源如内存、CPU、磁盘、网络等。
MapReduce架构概述
MapReduce将计算分为两个阶段Map阶段和Reduce阶段 1Map阶段负责并行处理输入数据 2Reduce阶段对Map结果进行汇总 5大数据技术生态体系