当前位置：首页 > news >正文

网站建设及推广培训信息流推广渠道

news 2026/1/18 6:34:49

网站建设及推广培训,信息流推广渠道,可以自己设计装修的免费软件,网站分为1、Mapper类用户自定义一个Mapper类继承Hadoop的Mapper类Mapper的输入数据是KV对的形式#xff08;类型可以自定义#xff09;Map阶段的业务逻辑定义在map()方法中Mapper的输出数据是KV对的形式#xff08;类型可以自定义#xff09; 注意#xff1a;map()方法是对输入…1、Mapper类用户自定义一个Mapper类继承Hadoop的Mapper类Mapper的输入数据是KV对的形式类型可以自定义Map阶段的业务逻辑定义在map()方法中Mapper的输出数据是KV对的形式类型可以自定义注意map()方法是对输入的一个KV对调用一次 2、Reducer类用户自定义Reducer类要继承Hadoop的Reducer类Reducer的输入数据类型对应Mapper的输出数据类型KV对Reducer的业务逻辑写在reduce()方法中Reduce()方法是对相同K的一组KV对调用执行一次 3、Driver阶段创建提交YARN集群运行的Job对象其中封装了MapReduce程序运行所需要的相关参数入输入数据路径输出数据路径等也相当于是一个YARN集群的客户端主要作用就是提交我们MapReduce程序运行。 4、WordCount代码实现 4.1、需求在给定的文本文件中统计输出每一个单词出现的总次数输入数据wc.txt;输出 apache 2 clickhouse 2 hadoop 1 mapreduce 1 spark 2 xiaoming 1 4.2、具体步骤按照MapReduce编程规范分别编写MapperReducerDriver。 1新建maven工程导入hadoop依赖 ?xml version1.0 encodingUTF-8? project xmlnshttp://maven.apache.org/POM/4.0.0xmlns:xsihttp://www.w3.org/2001/XMLSchema-instancexsi:schemaLocationhttp://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsdmodelVersion4.0.0/modelVersiongroupIdcom.lagou/groupIdartifactIdWordcount/artifactIdversion1.0-SNAPSHOT/versiondependenciesdependencygroupIdorg.apache.logging.log4j/groupIdartifactIdlog4j-core/artifactIdversion2.8.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-common/artifactIdversion2.9.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-client/artifactIdversion2.9.2/version/dependencydependencygroupIdorg.apache.hadoop/groupIdartifactIdhadoop-hdfs/artifactIdversion2.9.2/version/dependency/dependenciesbuildpluginsplugingroupIdorg.apache.maven.plugins/groupIdartifactIdmaven-compiler-plugin/artifactIdversion3.5.1/versionconfigurationsource1.8/sourcetarget1.8/target/configuration/plugin!--maven打包插件 --pluginartifactIdmaven-compiler-plugin/artifactIdversion2.3.2/versionconfigurationsource1.8/sourcetarget1.8/target/configuration/pluginpluginartifactIdmaven-assembly-plugin/artifactIdconfigurationdescriptorRefsdescriptorRefjar-with-dependencies/descriptorRef/descriptorRefs/configurationexecutionsexecutionidmake-assembly/idphasepackage/phasegoalsgoalsingle/goal/goals/execution/executions/plugin/plugins/build/project 添加log4j.properties log4j.rootLoggerINFO, stdout log4j.appender.stdoutorg.apache.log4j.ConsoleAppender log4j.appender.stdout.layoutorg.apache.log4j.PatternLayout log4j.appender.stdout.layout.ConversionPattern%d %p [%c] - %m%n log4j.appender.logfileorg.apache.log4j.FileAppender log4j.appender.logfile.Filetarget/spring.log log4j.appender.logfile.layoutorg.apache.log4j.PatternLayout log4j.appender.logfile.layout.ConversionPattern%d %p [%c] - %m%n 2整体思路梳理仿照源码 Map阶段 map()方法中把传入的数据转为String类型根据空格切分出单词输出单词1 Reduce阶段汇总各个key(单词)的个数遍历value数据进行累加输出key的总数 Driver 获取配置文件对象获取job对象实例指定程序jar的本地路径指定Mapper/Reducer类指定Mapper输出的kv数据类型指定最终输出的kv数据类型指定job处理的原始数据路径指定job输出结果路径提交作业 3编写Mapper类 package com.lagou.mr.wc;import org.apache.hadoop.io.*; import org.apache.hadoop.mapreduce.Mapper;import java.io.IOException;// 继承Mapper类 // Mapper类的泛型参数共四个2对kv /** 第一对kvmap输入参数类型* 第二队kvmap输出参数类型* LongWritable, Text -文本偏移量后面不会用到一行文本内容* Text, IntWritable -单词1*/ public class WordCountMapper extends MapperLongWritable, Text, Text, IntWritable {// 重写Mapper类的map方法/*** 1、接收文本内容转为String类型* 2、按照空格进行拆分* 3、输出单词, 1*/// 提升为全局方法避免每次执行map方法都执行此操作Text word new Text();IntWritable one new IntWritable(1);// LongWritable, Text -文本偏移量一行文本内容map方法的输入参数一行文本调用一次map方法Overrideprotected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {// 1、接收文本内容转为String类型String str value.toString();// 2、按照空格进行拆分String[] words str.split( );// 3、输出单词, 1// 遍历数据for (String s : words) {word.set(s);context.write(word, one);}} }继承的Mapper类型选择新版本API 4编写Reducer类 package com.lagou.mr.wc;import org.apache.hadoop.mapreduce.Reducer; import org.apache.hadoop.io.*;import java.io.IOException;// 继承的Reducer类有四个泛型参数 2对kv // 第一对kv类型要与Mapper输出类型一致Text, IntWritable public class WordCountReducer extends ReducerText, IntWritable, Text, IntWritable {// 1、重写reduce方法// Text key:map方法输出的key本案中就是单词// IterableIntWritable values: 一组key相同的kv的value组成的集合/*** 假设map方法hello 1; hello 1; hello 1* reduce的key和value是什么* key:hello* values:1,1,1* p* 假设map方法输出hello 1, hello 1, hadoop 1, mapreduce 1, hadoop 1* reduce的key和value是什么* reduce方法何时调用一组key相同的kv中的value组成集合然后调用一次reduce方法* 第一次key:hello ,values:1,1,1* 第二次key:hadoop ,values1,1* 第三次key:mapreduce ,values1*/IntWritable total new IntWritable();Overrideprotected void reduce(Text key, IterableIntWritable values, ReducerText, IntWritable, Text, IntWritable.Context context) throws IOException, InterruptedException {// 2、遍历key对应的values然后累加结果int sum 0;for (IntWritable value : values) {int i value.get();sum 1;}// 3、直接输出当前key对应的sum值结果就是单词出现的总次数total.set(sum);context.write(key, total);} }选择继承的Reducer类 5 编写Driver驱动类 package com.lagou.mr.wc;import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io.IntWritable; import org.apache.hadoop.io.Text; import org.apache.hadoop.mapreduce.Job; import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;import java.io.IOException;// 封装任务并提交运行 public class WordCountDriver {public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {/*1. 获取配置文件对象获取job对象实例2. 指定程序jar的本地路径3. 指定Mapper/Reducer类4. 指定Mapper输出的kv数据类型5. 指定最终输出的kv数据类型6. 指定job处理的原始数据路径7. 指定job输出结果路径8. 提交作业*/// 1. 获取配置文件对象获取job对象实例Configuration conf new Configuration();Job job Job.getInstance(conf, WordCountDriver);/// jobName可以自定义// 2. 指定程序jar的本地路径job.setJarByClass(WordCountDriver.class);// 3. 指定Mapper/Reducer类job.setMapperClass(WordCountMapper.class);job.setReducerClass(WordCountReducer.class);// 4. 指定Mapper输出的kv数据类型job.setMapOutputKeyClass(Text.class);job.setMapOutputValueClass(IntWritable.class);// 5. 指定最终输出的kv数据类型job.setOutputKeyClass(Text.class);job.setOutputValueClass(IntWritable.class);// 6. 指定job处理的原始数据路径FileInputFormat.setInputPaths(job, new Path(args[0])); // 指定读取数据的原始路径// 7. 指定job输出结果路径FileOutputFormat.setOutputPath(job, new Path(args[1])); // 指定结果数据输出路径// 8. 提交作业boolean flag job.waitForCompletion(true);// jvm退出正常退出0非0值则是错误退出System.exit(flag ? 0 : 1);} }运行任务 1、本地模式直接Idea中运行驱动类即可 idea运行需要传入参数选择editconfiguration 在program arguments设置参数运行时报错 ---- 参见博文org.apache.hadoop.io.nativeio.NativeIO$Windows.access0(Ljava/lang/StringI)Z的解决办法_zhouang770377的博客-CSDN博客运行结束去到输出结果路径查看结果注意本地idea运行mr任务与集群没有任何关系没有提交任务到yarn集群是在本地使用多线程方式模拟的mr的运行。 2、Yarn集群模式把程序打成jar包改名为wc.jar;上传到Hadoop集群选择合适的Jar包准备原始数据文件上传到HDFS的路径不能是本地路径因为跨节点运行无法获取数据启动Hadoop集群Hdfs,Yarn 使用Hadoop 命令提交任务运行 hadoop jar wc.jar com.lagou.wordcount.WordcountDriver /user/lagou/input /user/lagou/output Yarn集群任务运行成功展示图

查看全文

http://www.dnsts.com.cn/news/242647.html