安论坛网站建设,深圳网站定制建设,windows网页制作工具,办公室现代简约装修搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联#xff0c;都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话#xff0c;所有配置文件添加的内容后面的注释记得删除#xff0c;可能会报错。保险一点删除最好。Scala环境搭建上传安装包解压并重命…搭建Spark需要先配置好scala环境。三种Spark环境搭建互不关联都是从零开始搭建。如果将文章中的配置文件修改内容复制粘贴的话所有配置文件添加的内容后面的注释记得删除可能会报错。保险一点删除最好。Scala环境搭建上传安装包解压并重命名rz上传如果没有安装rz可以使用命令安装yum install -y lrzsz 这里我将scala解压到/opt/module目录下tar -zxvf /opt/tars/scala-2.12.0.tgz -C /opt/module重命名mv scala-2.12.0 scala2、vi /etc/profile 在最后添加export SCALA_HOME/opt/module/scalaexport PATH$PATH:$SCALA_HOME/bin刷新使文件生效source /etc/profile搭建单机伪分布式环境单机spark单机伪分布是在一台机器上既有Master又有Worker进程。spark单机伪分布式环境可以在hadoop伪分布式的基础上进行搭建上传安装包解压并重命名rz上传解压tar -zxvf /opt/tars/spark-3.1.1-bin-hadoop3.2.tgz -C /opt/module重命名mv spark-3.1.1-bin-hadoop3.2 spark进入spark/conf将spark-env.sh.template 重命名为spark-env.shcd /opt/module/spark/confmv spark-env.sh.template spark-env.sh打开spark-env.sh:vi spark-env.sh在末尾添加export JAVA_HOME/opt/module/jdk # java的安装路径export HADOOP_CONF_DIR/opt/module/hadoop/etc/hadoop # hadoop的安装路径export HADOOP_HOME/opt/module/hadoop # hadoop配置文件的路径export SPARK_MASTER_IPmaster # spark主节点的ip或机器名export SPARK_LOCAL_IPmaster # spark本地的ip或机器名4、vi /etc/profileexport SPARK_HOME/opt/module/sparkexport PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin刷新source /etc/profile5、切换到/sbin目录下启动集群cd /opt/module/spark/sbin ./start-all.sh6、通过jps查看进程既有Master进程又有Worker进程搭建完全分布式环境搭建Spark完全分布式环境的前提是已经搭建好了hadoop完全分布式如果没有搭建hadoop完全分布式且不会搭建可以前往博主主页寻找hadoop完全分布式搭建的文章进行搭建。博主的三台机器名:主节点master从节点slave1slave21、上传安装包解压并重命名前面已经讲解过就不多说了2、进入spark/conf将spark-env.sh.template 重命名 spark-env.shcd /opt/module/spark/confmv spark-env.sh.template spark-env.sh3、vi spark-env.sh在末尾添加export JAVA_HOME/opt/module/jdk # java的安装路径export HADOOP_CONF_DIR/opt/module/hadoop/etc/hadoop # hadoop配置文件的路径export SPARK_MASTER_IPmaster # spark主节点的ip或机器名export SPARK_MASTER_PORT7077 # spark主节点的端口号export SPARK_WORKER_MEMORY512m # Worker节点能给予Executors的内存数export SPARK_WORKER_CORES1 # 每台节点机器使用核数export SPARK_EXECUTOR_MEMORY512m # 每个Executors的内存export SPARK_EXCUTOR_CORES1 # Executors的核数export SPARK_WORKER_INSTANCES1 # 每个节点的Worker进程数4、spark2.x是配置slaves文件将slaves.template重命名为slavesmv slaves.template slaves添加三个节点的机器名如果只要两个work的话可以不写mastervi slavesmasterslave1slave2spark3.x是配置works文件mv works.template worksvi worksmasterslave1slave25、配置spark-default.conf文件将spark-defaults.conf.template重命名为spark-default.confmv spark-defaults.conf.template spark-default.conf修改配置文件vi /opt/module/spark/conf/spark-default.confspark.master spark://master:7077 !--spark主节点所在机器及端口默认写法是spark://--spark.eventLog.enabled true !--是否打开任务日志功能默认为false即打不开--spark.eventLog.dir hdfs://master:8020/spark-logs !--任务日志默认存放位置配置一个HDFS路径即可--spark.history.fs.logDirectory hdfs://master:8020/spark-logs !--存放历史应用日志文件的目录--注意8020是HDFS的连接端口需要填自己的可以去hadoop的webui查看hadoop2.x端口是50070hadoop3.x端口是98706、分发scp -r /opt/module/spark slave1:/opt/modulescp -r /opt/module/spark slave2:/opt/module7、创建spark-logs目录hdfs dfs -mkdir /spark-logs8、vi /etc/profileexport SPARK_HOME/opt/module/sparkexport PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin刷新source /etc/profile9、分发scp -r /etc/profile slave1:/etcscp -r /etc/profile slave2:/etc刷新使文件生效source /etc/profile进入Spark的/sbin目录下启动Spark独立集群cd /opt/module/spark/sbinsbin/start-all.sh启动历史服务器可以不启动不启动则没有HistoryServer进程sbin/start-history-server.sh通过jps查看进程master节点slave1/slave2节点完成以上步骤Spark环境则搭建完成。可以通过http://master:8080访问主节点可以看到webui的监控画面http://master:18080可以看到历史任务启动Spark交互页面bin/spark-shell启动YARN客户端模式bin/spark-shell --master yarn-client启动YARN集群模式bin/spark-shell --master yarn-clusterSpark on Yarn模式1、解压并重命名tar -zxvf spark-3.0.0-bin-hadoop3.2.tgz -C /opt/modulecd /opt/modulemv spark-3.0.0-bin-hadoop3.2 spark-yarn2、修改hadoop配置文件yarn-site.xml并分发vi /opt/module/hadoop/etc/hadoop/yarn-site.xml!--是否启动一个线程检查每个任务正使用的物理内存量如果任务超出分配值则直接将其杀掉默认是 true --property nameyarn.nodemanager.pmem-check-enabled/name valuefalse/value/property!--是否启动一个线程检查每个任务正使用的虚拟内存量如果任务超出分配值则直接将其杀掉默认是 true --property nameyarn.nodemanager.vmem-check-enabled/name valuefalse/value/property分发scp -r /opt/module/hadoop/etc/hadoop/yarn-site.xml slave1:/opt/module/hadoop/etc/hadoop/ scp -r /opt/module/hadoop/etc/hadoop/yarn-site.xml slave2:/opt/module/hadoop/etc/hadoop/3、修改spark-yarn/conf/spark-env.sh配置文件vi /opt/module/spark-yarn/conf/spark-env.shexport JAVA_HOME/opt/module/jdkYARN_CONF_DIR/opt/module/hadoop/etc/hadoop4、vi /etc/profileexport SPARK_HOME/opt/module/spark-yarnexport PATH$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin刷新source /etc/profile5、分发scp -r /etc/profile slave1:/etcscp -r /etc/profile slave2:/etc刷新使文件生效source /etc/profile完成以上步骤Spark-on-yarn便搭建完成了时间同步在跑任务时可能会报错Note: System times on machines may be out of sync. Check system time and time zones.这个是因为三台机子时间不同步的原因安装NTP服务三个机子都要yum install ntp手动同步时间三个机子都要ntpdate -u ntp1.aliyun.com