当前位置: 首页 > news >正文

网站建设及推广培训信息流推广渠道

网站建设及推广培训,信息流推广渠道,可以自己设计装修的免费软件,网站分为1、Mapper类 用户自定义一个Mapper类继承Hadoop的Mapper类Mapper的输入数据是KV对的形式#xff08;类型可以自定义#xff09;Map阶段的业务逻辑定义在map()方法中Mapper的输出数据是KV对的形式#xff08;类型可以自定义#xff09; 注意#xff1a;map()方法是对输入…1、Mapper类 用户自定义一个Mapper类继承Hadoop的Mapper类Mapper的输入数据是KV对的形式类型可以自定义Map阶段的业务逻辑定义在map()方法中Mapper的输出数据是KV对的形式类型可以自定义 注意map()方法是对输入的一个KV对调用一次 2、Reducer类 用户自定义Reducer类要继承Hadoop的Reducer类Reducer的输入数据类型对应Mapper的输出数据类型KV对Reducer的业务逻辑写在reduce()方法中Reduce()方法是对相同K的一组KV对调用执行一次 3、Driver阶段 创建提交YARN集群运行的Job对象其中封装了MapReduce程序运行所需要的相关参数入输入数据路径输出数据路径等也相当于是一个YARN集群的客户端主要作用就是提交我们MapReduce程序运行。 4、WordCount代码实现 4.1、需求 在给定的文本文件中统计输出每一个单词出现的总次数输入数据wc.txt;输出 apache 2 clickhouse 2 hadoop 1 mapreduce 1 spark 2 xiaoming 1 4.2、具体步骤 按照MapReduce编程规范分别编写MapperReducerDriver。 1新建maven工程 导入hadoop依赖 ?xml version1.0 encodingUTF-8? project xmlnshttp://maven.apache.org/POM/4.0.0xmlns:xsihttp://www.w3.org/2001/XMLSchema-instancexsi:schemaLocationhttp://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsdmodelVersion4.0.0/modelVersiongroupIdcom.lagou/groupIdartifactIdWordcount/artifactIdversion1.0-SNAPSHOT/versiondependenciesdependencygroupIdorg.apache.logging.log4j/groupIdartifactIdlog4j-core/artifactIdversion2.8.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-common/artifactIdversion2.9.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-client/artifactIdversion2.9.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-hdfs/artifactIdversion2.9.2/version/dependency/dependenciesbuildpluginsplugingroupIdorg.apache.maven.plugins/groupIdartifactIdmaven-compiler-plugin/artifactIdversion3.5.1/versionconfigurationsource1.8/sourcetarget1.8/target/configuration/plugin!--maven打包插件 --pluginartifactIdmaven-compiler-plugin/artifactIdversion2.3.2/versionconfigurationsource1.8/sourcetarget1.8/target/configuration/pluginpluginartifactIdmaven-assembly-plugin/artifactIdconfigurationdescriptorRefsdescriptorRefjar-with-dependencies/descriptorRef/descriptorRefs/configurationexecutionsexecutionidmake-assembly/idphasepackage/phasegoalsgoalsingle/goal/goals/execution/executions/plugin/plugins/build/project 添加log4j.properties log4j.rootLoggerINFO, stdout log4j.appender.stdoutorg.apache.log4j.ConsoleAppender log4j.appender.stdout.layoutorg.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern%d %p [%c] - %m%n log4j.appender.logfileorg.apache.log4j.FileAppender log4j.appender.logfile.Filetarget/spring.log log4j.appender.logfile.layoutorg.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern%d %p [%c] - %m%n 2整体思路梳理仿照源码 Map阶段 map()方法中把传入的数据转为String类型根据空格切分出单词输出单词1 Reduce阶段 汇总各个key(单词)的个数遍历value数据进行累加输出key的总数 Driver 获取配置文件对象获取job对象实例指定程序jar的本地路径指定Mapper/Reducer类指定Mapper输出的kv数据类型指定最终输出的kv数据类型指定job处理的原始数据路径指定job输出结果路径提交作业 3编写Mapper类 package com.lagou.mr.wc;import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;// 继承Mapper类 // Mapper类的泛型参数共四个2对kv /** 第一对kvmap输入参数类型* 第二队kvmap输出参数类型* LongWritable, Text -文本偏移量后面不会用到一行文本内容* Text, IntWritable -单词1*/ public class WordCountMapper extends MapperLongWritable, Text, Text, IntWritable {// 重写Mapper类的map方法/*** 1、接收文本内容转为String类型* 2、按照空格进行拆分* 3、输出单词, 1*/// 提升为全局方法避免每次执行map方法都执行此操作Text word new Text();IntWritable one new IntWritable(1);// LongWritable, Text -文本偏移量一行文本内容map方法的输入参数一行文本调用一次map方法Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 1、接收文本内容转为String类型String str value.toString();// 2、按照空格进行拆分String[] words str.split( );// 3、输出单词, 1// 遍历数据for (String s : words) {word.set(s);context.write(word, one);}} }继承的Mapper类型选择新版本API 4编写Reducer类 package com.lagou.mr.wc;import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.io.*;import java.io.IOException;// 继承的Reducer类有四个泛型参数 2对kv // 第一对kv类型要与Mapper输出类型一致Text, IntWritable public class WordCountReducer extends ReducerText, IntWritable, Text, IntWritable {// 1、重写reduce方法// Text key:map方法输出的key本案中就是单词// IterableIntWritable values: 一组key相同的kv的value组成的集合/*** 假设map方法hello 1; hello 1; hello 1* reduce的key和value是什么* key:hello* values:1,1,1* p* 假设map方法输出hello 1, hello 1, hadoop 1, mapreduce 1, hadoop 1* reduce的key和value是什么* reduce方法何时调用一组key相同的kv中的value组成集合然后调用一次reduce方法* 第一次key:hello ,values:1,1,1* 第二次key:hadoop ,values1,1* 第三次key:mapreduce ,values1*/IntWritable total new IntWritable();Overrideprotected void reduce(Text key, IterableIntWritable values, ReducerText, IntWritable, Text, IntWritable.Context context) throws IOException, InterruptedException {// 2、遍历key对应的values然后累加结果int sum 0;for (IntWritable value : values) {int i value.get();sum 1;}// 3、直接输出当前key对应的sum值结果就是单词出现的总次数total.set(sum);context.write(key, total);} }选择继承的Reducer类 5 编写Driver驱动类 package com.lagou.mr.wc;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;// 封装任务并提交运行 public class WordCountDriver {public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {/*1. 获取配置文件对象获取job对象实例2. 指定程序jar的本地路径3. 指定Mapper/Reducer类4. 指定Mapper输出的kv数据类型5. 指定最终输出的kv数据类型6. 指定job处理的原始数据路径7. 指定job输出结果路径8. 提交作业*/// 1. 获取配置文件对象获取job对象实例Configuration conf new Configuration();Job job Job.getInstance(conf, WordCountDriver);/// jobName可以自定义// 2. 指定程序jar的本地路径job.setJarByClass(WordCountDriver.class);// 3. 指定Mapper/Reducer类job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);// 4. 指定Mapper输出的kv数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 5. 指定最终输出的kv数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// 6. 指定job处理的原始数据路径FileInputFormat.setInputPaths(job, new Path(args[0])); // 指定读取数据的原始路径// 7. 指定job输出结果路径FileOutputFormat.setOutputPath(job, new Path(args[1])); // 指定结果数据输出路径// 8. 提交作业boolean flag job.waitForCompletion(true);// jvm退出正常退出0非0值则是错误退出System.exit(flag ? 0 : 1);} }运行任务 1、本地模式 直接Idea中运行驱动类即可 idea运行需要传入参数 选择editconfiguration  在program arguments设置参数  运行时报错 ----  参见博文org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/StringI)Z的解决办法_zhouang770377的博客-CSDN博客 运行结束去到输出结果路径查看结果 注意本地idea运行mr任务与集群没有任何关系没有提交任务到yarn集群是在本地使用多线程方式模拟的mr的运行。  2、Yarn集群模式 把程序打成jar包改名为wc.jar;上传到Hadoop集群 选择合适的Jar包 准备原始数据文件上传到HDFS的路径不能是本地路径因为跨节点运行无法获取数据  启动Hadoop集群Hdfs,Yarn 使用Hadoop 命令提交任务运行 hadoop jar wc.jar com.lagou.wordcount.WordcountDriver /user/lagou/input /user/lagou/output Yarn集群任务运行成功展示图
http://www.dnsts.com.cn/news/242647.html

相关文章:

  • 怎么修改网站图片深圳开发软件公司
  • wordpress娱乐网模板海口百度seo公司
  • 中美网站建设中国建筑装饰网设计师联盟
  • 中国建设信号工证网站wordpress 暖岛 主题
  • 微网站是手机网站吗wordpress vip付费插件
  • 网站修改图片怎么做如何查看网站外链
  • 做网站销售挣钱吗海口企业网站建设
  • 青海省公路建设服务网站天津做网站.都找津坤科技
  • 做旅游网站的原因长沙做网站团队
  • 淘客做网站有必要吗页面设计尺寸规范
  • 河南手机网站建设公司哪家好扫码点餐小程序怎么制作
  • 做app网站有哪些广州越秀公司网站建设
  • html创建站点的步骤wordpress付费播放
  • 餐饮品牌设计网站网站备案被注销的原因
  • 有哪些做副业的网站优秀的门户网站
  • 花都做网站公司wordpress博客字体
  • 用vs做网站在安装时要勾选霸州做网站1766534168
  • 网站怎么放404页面网站关键词排名优化方法
  • 网站备案icp备案wordpress部署到sae
  • 怎么查看网站是否降权wordpress demo数据
  • 做网站最好的工具优化方案2021版语文答案
  • 简诉网站建设的基本流程图唐山石家庄做网站哪家好
  • 搜狐快站免费html网站模板
  • 专业做网站广州河南大宗商品交易平台
  • 葫芦岛手机网站建设怎么在网站上做外链
  • ui网页设计规则南宁seo 网站收录
  • 博星卓越营销网站设计淘宝网店运营策划书3000字
  • 湖南营销型网站建设磐石网络省钱个人店铺名字大全
  • 外贸网站用wordpress电商平台寻求供货商
  • 商务网站网络环境设计建网站相关知识