上海奉贤网站建设 列表网,岚山网站建设,网站策划书3000,dede织梦建站教程大数据学习笔记 大数据概念
大数据#xff1a;指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合#xff0c;是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决#xff0c;海量数据的存储… 大数据学习笔记 大数据概念
大数据指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 主要解决海量数据的存储和海量数据的分析计算问题。
4V大量、高速实时性要求高、多样数据类型多样、低价值密度
数据类型
结构化数据以数据库/文本为主的结构化数据非结构化数据音频、图片、视频、地理位置信息半结构化数据html、json
大数据应用物流仓库、零售、旅游、商品广告推荐、保险、金融、人工智能
大数据部门业务流程分析 产品人员提需求 -- 数据部门搭建数据平台、分析数据指标 -- 数据可视化
大数据部门组织结构
Hadoop概念
Hadoop
hadoop是一个有Apache基金会所开发的分布式系统基础框架。主要解决海量数据的存储和海量数据的分析计算问题广义上来说hadoop通常是指一个更广泛的概念——hadoop生态圈
Hadoop三大发行版本Apache、Cloudera、Hortonworks
Hadoop的优势4高
高可靠性hadoop底层维护多个数据副本所以即使hadoop某个计算元素或存储出现故障也不会导致数据丢失。高扩展性在集群间分配任务数据可方便的扩展数以千计的节点。高效性在MapReduce的思想下Hadoop是并行工作的以加快任务处理速度。高容错性能够自动将失败的任务重新分配。
Hadoop组成面试重点 hadoop1.x和hadoop2.x区别
组成不一样 在hadoop1.x时代hadoop中的MapReduce同时处理业务逻辑运算和资源的调度耦合性较大在hadoop2.x时代增加了Yarn。Yarn只负责资源的调度MapReduce只负责运算。
HDFS架构概述
hdfshadoop分布式系统架构
NameNodenn存储文件的元数据如文件名文件目录结构文件属性生成时间、副本数、文件权限以及每个文件的块列表和块所在的DataNode等。管理数据存放在哪里相当于目录DataNodedn在本地文件系统存储文件块数据以及块数据的校验和。真正存数据的Secondary NameNode2nn用来监控HDFS状态的辅助后台程序每隔一段时间获取HDFS元数据的快照。
Yarn架构概述
主要作用是做资源调度。
ResourceMangerRM 1处理客户端请求 2监控NodeMangaer 3启动或监控ApplicationMaster 4资源分配与调度NodeManagerNM 1管理单个节点上的资源 2处理来自ResourceManager的命令 3处理来自ApplicationMaster的命令ApplicationMasterAM 1负责数据的切分 2为应用程序申请资源并分配给内部的任务 3任务的监控与容错Container Container是YARN中的资源抽象它封装了某个节点上的多维度资源如内存、CPU、磁盘、网络等。
MapReduce架构概述
MapReduce将计算过程分为两个阶段Map和Reduce
Map阶段并行处理输入数据Reduce阶段对Map结果进行汇总
大数据技术生态体系
数据来源层 -- 数据传输层 -- 数据存储层 -- 资源管理层 -- 数据计算层 -- 任务调度层 -- 业务模型层 数据平台配置和调度Zookeeper
推荐系统项目框架图
用户请求–Nginx做负载均衡 -- 发送到Tomcat 收集访问日志 -- 通过flume进行日志收集 -- 存储到HDFS或者HBase -- Storm 实时计算 /Flink 计算/Spark -- 分析结果存储到数据库/文件 -- Tomcat 推荐业务
hadoop运行模式
本地运行模式伪分布式模式完全分布式运行模式