建设网站费用评估,做一个网站设计要多久,支部网站及活动室建设,做视频网站付费版本文主要介绍hadoop、hive的结构及使用#xff0c;具体的操作步骤见最后的附件#xff1b;
hadoop提供大数据的存储、资源调度、计算#xff0c;分为三个模块#xff1a;HDFS、YRAN、MapReduce HDFS提供数据的分布式存储#xff0c;分为三个节点NameNode,DataNode,Second…本文主要介绍hadoop、hive的结构及使用具体的操作步骤见最后的附件
hadoop提供大数据的存储、资源调度、计算分为三个模块HDFS、YRAN、MapReduce HDFS提供数据的分布式存储分为三个节点NameNode,DataNode,SecondaryNameNode 1、当客户端发起读写数据请求时首先到 NameNodeNameNode审核权限、判断剩余空间然后告知客户端读写的DataNode地址客户端向指定的DataNode发送数据包被写入数据的DataNode同时完成数据副本的复制工作将其接收的数据分发给其它DataNode 2、hdfs以biock(块)为单位存储文件每个块默认256M可调整块的大小每个块可创建多个(可设置)备份来保证存储文件的安全性 3、edits文件是一个流水账文件记录hdfs中的每一次操作也记录了文件和block的对应关系一个文件如果经过多次操作在edits中存在多条记录、检索文件时效率比较低所以就有了edits文件的合并 4、edits文件合并后的文件叫做fsimage只保留文件的最终结果合并文件的操作是SecondaryNameNode来完成 NameNode基于edits和FSImage的配合完成整个文件系统文件的管理。 启动和停止start-dfs.sh 、stop-dfs.sh YARN是hadoop里面的资源调度组件分为ResourceManagerNodeManagerProxyServerJobHistoryServer 1、ResourceManager整个集群的资源调度者 负责协调调度各个程序所需的资源。 2、NodeManager单个服务器的资源调度者负责调度单个服务器上的资源提供给应用程序使用。 3、ProxyServer应用程序代理yarn在运行时对外提供了一个web ui站点代理服务器的功能就是最大限度保障对WEB UI的访问是安全的 4、JobHistoryServer历史服务器应用程序历史信息记录服务日志是在容器中产生的分布在不同的服务器中难以查询JobHistoryServer抓取所有的日志在web ui中展示 单个任务在单个服务器上需要的资源称之为容器(container)NodeManager预先占有这些资源供任务使用 启动和停止yarnstart-yarn.sh、stop-yarn.sh mapReduce是hadoop的分布式计算组件运行在yarn中的不需要单独启动 MapReduce提供了两个接口 Map功能接口提供了“分散”的功能 由服务器分布式对数据进行处理 Reduce功能接口提供了“汇总聚合”的功能将分布式的处理结果汇总统计 MapReduce 代码比较老难以学习使用在MapReduce基础上推出了一些新的工具底层都是MapReduce在执行
Hive主要包含两个模块 元数据管理metastore服务用于存储元数据如通过load等命令将文本文件存储在mysql等数据库中 sql解析器将SQL语句 翻译成 MapReduce 程序运行 hive是单机部署但是可以使用 分布式的mapReduce进行计算
使用hive需要启动metastore和客户端服务(用于客户端连接) 启动元数据管理服务 前台启动bin/hive --service metastore 后台启动nohup bin/hive --service metastore logs/metastore.log 21 启动客户端二选一启动后就可以通过DBeaver或DataGrid等工具连接hive进行操作了 Hive Shell方式可以直接写SQL bin/hive Hive ThriftServer方式不可直接写SQL需要外部客户端链接使用 bin/hive --service hiveserver2 数据库中的列和文本文件中的列是一一对应的所以要指定列和列之间的分隔符hive默认是以”\001”作为分隔符也可以手动指定 hive和mysql数据库的不同 hive内部表和外部表 内部表类似数据库中的表表和数据是一体的删除表后数据也删除了 外部表是表和数据是独立的创建表时指定了目录那这个目录中的文本文件就默认成为了表数据删除表后只是表删除了数据还在 hive中有集合列array,mapstruct 使用这些列时需要指定集合中不同元素之间的分隔符
具体操作步骤及hive的类sql操作见下面附件
链接https://pan.baidu.com/s/1i_CefoRjWnO5fZ54AOhxhQ?pwdg33j
相关视频课程推荐 2023新版黑马程序员大数据入门到实战教程大数据开发必会的Hadoop、Hive云平台实战项目全套一网打尽_哔哩哔哩_bilibili