当前位置：首页 > news >正文

网站建设衤金手指花总十五网络会议有哪些软件

news 2025/12/15 22:01:10

网站建设衤金手指花总十五,网络会议有哪些软件,响应式网站怎么设置,建网站语言Hadoop是什么Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说#xff0c;Hadoop通常是指一个更广泛的概念一Hadoop 生态圈。Hadoop优势Hadoop组成HDFS架构Hadoop Distributed File System#xff0c…Hadoop是什么 Hadoop是一个由Apache基金会所开发的分布式系统基础架构。主要解决,海量数据的存储和海量数据的分析计算问题。广义上来说Hadoop通常是指一个更广泛的概念一Hadoop 生态圈。Hadoop优势Hadoop组成 HDFS架构Hadoop Distributed File System简称HDFS是一个分布式文件系统。HDFS优缺点优点缺点HDFS组成架构常用命令实操[atguiguhadoop102 hadoop-3.1.3]$ bin/hadoop fs [-appendToFile localsrc ... dst] [-cat [-ignoreCrc] src ...] [-chgrp [-R] GROUP PATH...] [-chmod [-R] MODE[,MODE]... | OCTALMODE PATH...] [-chown [-R] [OWNER][:[GROUP]] PATH...] [-copyFromLocal [-f] [-p] localsrc ... dst] [-copyToLocal [-p] [-ignoreCrc] [-crc] src ... localdst] [-count [-q] path ...] [-cp [-f] [-p] src ... dst] [-df [-h] [path ...]] [-du [-s] [-h] path ...] [-get [-p] [-ignoreCrc] [-crc] src ... localdst] [-getmerge [-nl] src localdst] [-help [cmd ...]] [-ls [-d] [-h] [-R] [path ...]] [-mkdir [-p] path ...] [-moveFromLocal localsrc ... dst] [-moveToLocal src localdst] [-mv src ... dst] [-put [-f] [-p] localsrc ... dst] [-rm [-f] [-r|-R] [-skipTrash] src ...] [-rmdir [--ignore-fail-on-non-empty] dir ...] acl_spec path]] [-setrep [-R] [-w] rep path ...] [-stat [format] path ...] [-tail [-f] file] [-test -[defsz] path] [-text [-ignoreCrc] src ...] 上传1-moveFromLocal从本地剪切粘贴到HDFS[atguiguhadoop102 hadoop-3.1.3]$ vim shuguo.txt输入shuguo[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -moveFromLocal ./shuguo.txt /sanguo./shuguo.txt 是当前路径 /sanguo是目标路径也就是把shuguo.txt剪切到hdfs的/sanguo路径下去2-copyFromLocal从本地文件系统中拷贝文件到HDFS路径去[atguiguhadoop102 hadoop-3.1.3]$ vim weiguo.txt输入weiguo[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -copyFromLocal weiguo.txt /sanguo3-put等同于copyFromLocal生产环境更习惯用put[atguiguhadoop102 hadoop-3.1.3]$ vim wuguo.txt输入wuguo[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -put ./wuguo.txt /sanguo4-appendToFile追加一个文件到已经存在的文件末尾[atguiguhadoop102 hadoop-3.1.3]$ vim liubei.txt输入liubei [atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -appendToFile liubei.txt /sanguo/shuguo.txt 下载1-copyToLocal从HDFS拷贝到本地[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -copyToLocal /sanguo/shuguo.txt ./2-get等同于copyToLocal生产环境更习惯用get[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -get /sanguo/shuguo.txt ./shuguo2.txt HDFS直接操作1-ls: 显示目录信息[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -ls /sanguo2-cat显示文件内容[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -cat /sanguo/shuguo.txt3-chgrp、-chmod、-chownLinux文件系统中的用法一样修改文件所属权限[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -chmod 666 /sanguo/shuguo.txt[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -chown atguigu:atguigu /sanguo/shuguo.txt4-mkdir创建路径[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -mkdir /jinguo5-cp从HDFS的一个路径拷贝到HDFS的另一个路径[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -cp /sanguo/shuguo.txt /jinguo6-mv在HDFS目录中移动文件[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -mv /sanguo/wuguo.txt /jinguo7-tail显示一个文件的末尾1kb的数据[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -tail /jinguo/shuguo.txt8-rm删除文件或文件夹[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -rm /sanguo/shuguo.txt9-rm -r递归删除目录及目录里面内容[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -rm -r /sanguo10-du统计文件夹的大小信息[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -du -s -h /jinguo27 81 /jinguo[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -du -h /jinguo分别查看文件李的每个文件所占容量大小第一个数是单个文件的容量第二个数字是多个副本共同所占的容量14 42 /jinguo/shuguo.txt7 21 /jinguo/weiguo.txt6 18 /jinguo/wuguo.tx 说明27表示文件大小81表示27*3个副本/jinguo表示查看的目录11-setrep设置HDFS中文件的副本数量[atguiguhadoop102 hadoop-3.1.3]$ hadoop fs -setrep 10 /jinguo/shuguo.txt这里设置的副本数只是记录在NameNode的元数据中是否真的会有这么多副本还得看DataNode的数量。因为目前只有3台设备最多也就3个副本只有节点数的增加到10台时副本数才能达到10。 YARN架构Yet Another Resource Negotiator简称YARN 另一种资源协调者是Hadoop的资源管理器。MapReduce架构MapReduce是一个分布式运算程序的编程框架MapReduce将计算过程分为两个阶段Map和ReduceMap阶段并行处理输入数据Reduce阶段对Map结果进行汇总 MapReduce优缺点优点1MapReduce易于编程它简单的实现一些接口就可以完成一个分布式程序这个分布式程序可以分布到大量廉价的PC机器上运行。也就是说你写一个分布式程序跟写一个简单的串行程序是一模一样的。就是因为这个特点使得MapReduce编程变得非常流行。2良好的扩展性当你的计算资源不能得到满足的时候你可以通过简单的增加机器来扩展它的计算能力。3高容错性MapReduce设计的初衷就是使程序能够部署在廉价的PC机器上这就要求它具有很高的容错性。比如其中一台机器挂了它可以把上面的计算任务转移到另外一个节点上运行不至于这个任务运行失败而且这个过程不需要人工参与而完全是由Hadoop内部完成的。4适合PB级以上海量数据的离线处理可以实现上千台服务器集群并发工作提供数据处理能力。缺点1不擅长实时计算MapReduce无法像MySQL一样在毫秒或者秒级内返回结果。2不擅长流式计算流式计算的输入数据是动态的而MapReduce的输入数据集是静态的不能动态变化。这是因为MapReduce自身的设计特点决定了数据源必须是静态的。3不擅长DAG有向无环图计算多个应用程序存在依赖关系后一个应用程序的输入为前一个的输出。在这种情况下MapReduce并不是不能做而是使用后每个MapReduce作业的输出结果都会写入到磁盘会造成大量的磁盘IO导致性能非常的低下。MapReduce核心思想1分布式的运算程序往往需要分成至少2个阶段。2第一个阶段的MapTask并发实例完全并行运行互不相干。3第二个阶段的ReduceTask并发实例互不相干但是他们的数据依赖于上一个阶段的所有MapTask并发实例的输出。4MapReduce编程模型只能包含一个Map阶段和一个Reduce阶段如果用户的业务逻辑非常复杂那就只能多个MapReduce程序串行运行。总结分析WordCount数据流走向深入理解MapReduce核心思想。MapReduce进程一个完整的MapReduce程序在分布式运行时有三类实例进程1MrAppMaster负责整个程序的过程调度及状态协调。2MapTask负责Map阶段的整个数据处理流程。3ReduceTask负责Reduce阶段的整个数据处理流程。 HDFS、YARN、MapReduce三者关系遇到的bugbug1报错信息在使用自动化部署的脚本的时候报错连接不上数据库报错原因在确定数据库账号密码和ip地址无误的情况下还是连接不上数据库最后发现是自动化脚本不支持mysql8.0解决办法在虚拟机上安装mysql5.7.41bug2参考文章https://blog.csdn.net/qq_20780541/article/details/122035569安装mysql有很多报错报错信息报错原因因为没有路径也没有权限所以创建此路径并授权给mysql用户解决办法mkdir /var/log/mariadb touch /var/log/mariadb/mariadb.log # 用户组及用户 chown -R mysql:mysql /var/log/mariadb/ /usr/local/mysql/support-files/mysql.server start报错信息解决办法mkdir /var/lib/mysql chmod 777 /var/lib/mysql报错信息解决办法ln -s /var/lib/mysql/mysql.sock /tmp/mysql.sock报错信息Host is not allowed to connect to this MySQL server解决办法use mysql; update user set user.Host% where user.Userroot; flush privileges; 或 GRANT ALL PRIVILEGES ON *.* TO root%IDENTIFIED BY Admin123qwe WITH GRANT OPTION; flush privileges;报错信息ERROR 1130: Host 192.168.10.173 is not allowed to connect to this MySQL ERROR 1062 (23000): Duplicate entry %-root for key PRIMARY解决办法不用管他使用flush privileges;刷新一下权限就可忘记数据库密码教程https://blog.csdn.net/m0_70556273/article/details/126490767bug3报错信息ssh: connect to host master port 22: No route to host报错原因可能是防火墙或者网络的问题但是我的防火墙是关闭了的然后发现是vi /etc/hosts配置的ip有问题解决办法修改成正确的host配置即可bug4报错信息在使用自动化部署脚本的时候发现hive和spark起不来一直报错报错原因通过free -h查看后发现是内存不够这里主要是缓存占的内存太多了动不动就是3G以上导致可用内存只有几百Mb最后导致这两个服务没办法跑起来然后把虚拟机的内存调到8G后发现还是跑不起来后来发现缓存就占了3个G以上reboot重启虚拟机清空缓存然后一个个的用下面的命令去手动启动才勉强跑起来解决办法cd /usr/lib/python2.7/site-packages/deployment*-py2.7.egg/deployment/hadoop/ python manager_hadoop.py----------------------------------------------------------------------------------------------- restart_all 重启所有Hadoop相关组件包括重启 Hadoop、Hive、Spark、Hbase、Phoenix-QueryServer stop_all 停止所有Hadoop相关组件包括停止 Hadoop、Hive、Spark、Hbase、Phoenix-QueryServer start_all 启动所有Hadoop相关组件包括启动 Hadoop、Hive、Spark、Hbase、Phoenix-QueryServer start_hadoop 启动Hadoop包括启动 Hdfs、Yarn、JobHistoryServer stop_hadoop 停止Hadoop包括停止 Hdfs、Yarn、JobHistoryServer start_hive 启动Hive包括启动 Hive元数据服务、HiveServer2 stop_hive 停止Hive所有相关进程包括停止 Hive元数据服务、HiveServer2、Hive客户端连接等 start_spark 启动Spark包括启动 Master、Worker stop_spark 停止Spark包括停止 Master、Worker start_hbase 启动Hbase包括启动 HMaster、HRegionServer stop_hbase 停止Hbase包括停止 HMaster、HRegionServer start_phoenix_queryserver 启动Phoenix的QueryServer用于支持瘦客户端连接方式 stop_phoenix_queryserver 停止Phoenix的QueryServer help 使用帮助 ------------------------------python manager_hadoop.py stop_allHadoop学习总结本次在部署Hadoop时采用的是自动化脚本部署一开始以为几分钟就可以弄好后面发现在跑脚本的时候各种各样的错误特别是内存导致的问题我开三台服务每台8G运行内存都不够用跑了n次通常都是跑到最后内存不足导致spark和hive安装失败后面发现是缓存占得内存太多了这里我不能理解为什么缓存动不动就是好几G内存稍微不注意内存就满了在这里我花费了大量的时间来排查和重新部署在部署成功后通过大数据平台来实现测试hive数据库是否可用把mysql的数据和hive数据库的数据互相进行跑批量同步测试都没有问题这里要注意在使用大数据平台的时候是不能直接连接虚拟机里的hive数据库的需要做端口转发同时还要关闭防火墙才可以成功连接在部署成功的过程中接触了很多陌生的技术概念特别是hive、spark、hbase这些技术栈完全不认识由于时间有限目前只额外的去了解了hive技术栈当然也没有很深入的去了解了解了hive的定义、架构、优缺点、常用命令等等剩下的技术栈在本周末进行了解目前学习主要是对常见的技术栈进行简单了解最起码要知道这些技术栈是干什么的有什么优势架构是什么然后在后续抽空系统的、深入的去学习这些框架最后通过实战来加深对这些框架的理解目前的学习计划和思路就是这样一口吃不成个大胖子学习要循环渐进而不是一气呵成整个学习过程中将伴随着尽可能的详细笔记笔记越多越好这样后续方便我复习看。

查看全文

http://www.dnsts.com.cn/news/27990.html