网站建设哪里公司好,高端网站定制设计公司,五种新型营销方式,维护公司问题一: namenode -format重复初始化
出现问题的原因是重复初始化时会重新生成集群ID#xff0c;而dn还是原先的集群ID#xff0c;两者不匹配时无法启动相应的dn进程。 怎么查找问题原因#xff1a;在logs目录下找到对应节点的.log文件#xff0c;使用tail -200 文件名来查…问题一: namenode -format重复初始化
出现问题的原因是重复初始化时会重新生成集群ID而dn还是原先的集群ID两者不匹配时无法启动相应的dn进程。 怎么查找问题原因在logs目录下找到对应节点的.log文件使用tail -200 文件名来查看日志信息。 解决办法1修改data/name/路径下的version文件中的集群ID为老的集群ID事实修改后仍然报错初始化不只是集群ID不一致建议使用方法2:。 解决办法2删除hadoop文件中的data文件和logs文件。
问题二免密登录配置出错permission denied没有权限拒绝访问
重新使用加密算法生成公钥私钥并将公钥发送给相应的主机。
ssh-keygen -t rsassh-copy-id hadoop10xxx
常用的端口号
rpc内部通信http外部web端口namenode802050070 / 9870mapreduce80888088历史服务器1988819888
集群的时间同步
有网络的情况 systemctl start ntpd:开启网络时间同步systemctl status ntpd : 查看开启状态 没有外部网络的情况 sudo vim /etc/ntp.conf设置102作为基准服务器ntpdate hadoop102: 向102发送请求同步时间sudo crontab -e: 设置定时任务
HDFS文件系统
概述
全称为Hadoop distributed file system, 是一个分布式文件系统通过目录树来定位文件。适合一次写入多次读出的场景。一个文件经过创建、写入和关闭之后就不能改变。
优点 高容错性通过增加副本的形式提高容错性副本丢失后会自动补全适合处理大数据数据规模达到PB级别文件数量达到9亿个可以构建在廉价机器上 缺点 不适合低延时数据访问比如毫秒级的存储数据。无法高效对大量小文件进行存储小文件存储的寻址时间超过了读取时间不支持并发写入文件随机修改。仅支持数据的追加不支持随机修改。
组成架构 NameNode:主管 管理HDFS的名称空间配置副本策略管理数据块映射信息处理客户端读写请求 DataNode: 工人Client客户端 文件切分上传之前就切分。 如果上传后切分有可能存不下上传后切分有三个备份需要多切几次。 管理HDFS如namenode格式化 SecondaryNameNode辅助NameNode并非热备。
文件块大小
由磁盘的传输速率决定由于目前磁盘的传输速率为100M/s按照程序员的进制进行整数转换为2进制则为128。 根据专家的结论寻址时间为传输时间的1%时是最佳状态。 文件块太小会增加寻址时间文件块太大磁盘传输数据的时间会明显大于定位这个块开始位置所需的时间。大于1%这个最佳状态。
hdfs文件操作系统的常用命令
hadoop fs 等价于 hdfs dfs上传文件到hdfs文件系统 hadoop fs -copyFromLocal caocao.txt /sanguo : 上传hadoop fs -moveFromLocal liubei.txt /sanguo上传后删除hadoop fs -put sunquan.txt /sanguo上传hadop fs appendToFIle sunquan.txt /sanguo/liubei.txt:追加文件内容 从hdfs文件系统下载文件到本地 hadoop fs -copyToLocal /sanguo/liubei.txt ./:拷贝下载hadoop fs -get /README.txt ./: 拷贝下载hadoop fs moveToLocal: 剪切到本地暂时没有实现 hadoop fs -ls /sanguo: 查询文件列表hadoop fs -cat /sanguo/caocao.txt: 查看文件内容hadoop fs -chmod 77 /sanguo/caocao.txt: 修改文件权限hadoop fs -du /sanguo: 查询文件夹下的文件的大小hadoop fs -setrep 10 /sanguo/caocao.txt:设置副本数量
HDFS的API操作
IDEA常用快捷键
双击shift : 搜索框ctrl h: 查询当前类的父子关系ctrl F12: 查询当前类的所有方法ctrlp: 显示方法的形参列表ctrlaltf:快速将局部变量提升为全局变量
配置文件优先级
代码中的conf.setresources目录下的xxx-site.xml配置文件jar包中的xxx-default.xml配置文件