当前位置: 首页 > news >正文

甘肃省住房和城乡建设部网站首页免费空间 个人网站 google广告联盟

甘肃省住房和城乡建设部网站首页,免费空间 个人网站 google广告联盟,域名备案未做网站,重庆新闻频道1#xff09;数据输入#xff1a; 1#xff09;合并小文件#xff1a;在执行mr任务前将小文件进行合并#xff0c;大量的小文件会产生大量的map任务#xff0c;增大map任务装载次数#xff0c;而 任务的装载比较耗时#xff0c;从而导致 mr 运行较慢。 2#xff09;…1数据输入 1合并小文件在执行mr任务前将小文件进行合并大量的小文件会产生大量的map任务增大map任务装载次数而 任务的装载比较耗时从而导致 mr 运行较慢。 2采用ConbinFileInputFormat来作为输入解决输入端大量小文件场景。 2map阶段 1减少spill次数通过调整io.sort.mb及sort.spill.percent参数值增大触发spill的内存上限减少spill次数从而减少磁 盘 IO。         2减少merge次数通过调整io.sort.factor参数增大merge的文件数目减少merge的次数从而缩短mr处理时间。         3在 map 之后先进行combine处理减少 I/O。 3reduce阶段         1合理设置map和reduce数两个都不能设置太少也不能设置太多。太少会导致task等待延长处理时间太多 会导致 map、reduce任务间竞争资源造成处理超时等错误。         2设置map、reduce共存调整slowstart.completedmaps参数使map运行到一定程度后reduce也开始运行减少 reduce的等待时间。         3规避使用reduce因为Reduce在用于连接数据集的时候将会产生大量的网络消耗。         4合理设置reduc端的buffer默认情况下数据达到一个阈值的时候buffer中的数据就会写入磁盘然后reduce会从         磁盘中获得所有的数据。也就是说buffer和reduce是没有直接关联的中间多个一个写磁盘-读磁盘的过程既然有这个弊端 那么就可以通过参数来配置使得buffer中的一部分数据可以直接输送到reduce从而减少IO开销 mapred.job.reduce.input.buffer.percent默认为0.0。当值大于0的时候会保留指定比例的内存读buffer中的数据直接拿给reduce 使用。这样一来设置buffer需要内存读取数据需要内存reduce计算也要内存所以要根据作业的运行情况进行调整。 4IO传输         1采用数据压缩的方式减少网络IO的的时间。 安装Snappy和LZOP压缩编码器。         2使用SequenceFile二进制文件 5数据倾斜问题         1数据倾斜现象                 数据频率倾斜——某一个区域的数据量要远远大于其他区域。                 数据大小倾斜——部分记录的大小远远大于平均值。         2如何收集倾斜数据         在reduce方法中加入记录map输出键的详细情况的功能。 public static final String MAX_VALUES skew.maxvalues; private int maxValueThreshold; Override public void configure(JobConf job) { maxValueThreshold job.getInt(MAX_VALUES, 100); } Override public void reduce(Text key, IteratorText values, OutputCollectorText, Text output, Reporter reporter) throws IOException {int i 0; while (values.hasNext()) {values.next(); i; }if (i maxValueThreshold) {log.info(Received i values for key key);} }         3减少数据倾斜的方法                 方法1抽样和范围分区                         可以通过对原始数据进行抽样得到的结果集来预设分区边界值。                 方法2自定义分区                 另一个抽样和范围分区的替代方案是基于输出键的背景知识进行自定义分区。例如如果map输出键的单词来源于一本书。 其中大部分必然是省略词stopword。那么就可以将自定义分区将这部分省略词发送给固定的一部分reduce实例。而将其他的 都发送给剩余的reduce例。                 方法3Combine 使用Combine可以大量地减小数据频率倾斜和数据大小倾斜。在可能的情况下combine的目的就 是聚合并精简数据。 结语小编能力有限 欢迎大家多多指教
http://www.dnsts.com.cn/news/56160.html

相关文章:

  • wordpress onetone站长之家的seo综合查询工具
  • 教程建设网站计算机培训短期速成班
  • 济南做html5网站建设wordpress 顶部大图
  • 河北邯郸做移动网站一个专门做标题的网站
  • 怎么判断一个网站做的好东莞门户网站建设报价表
  • 团购网站 方案无锡做网站的公司电话
  • 网站策划哪里找彩妆网站模板
  • 北京个人做网站唐山网站建设电话
  • 深圳网站设计师培训学校wordpress 自定义rss
  • 网站已经编辑好了 上线准备哪些工作一流的成都 网站建设
  • 网站建设教程 迅雷下载设计 网站访问次数
  • c 网站开发环境购物网站项目简介
  • 网站群建设意见征集网页开发背景怎么写
  • 承德网站制作与建设交换链接的其它叫法是
  • 怎样做自己的加密网站html商品展示页面
  • 网站网址前的小图标怎么做的温州网页设计公司哪家好
  • 宠物网站建设论文总结辽宁建设工程信息网保函保险服务模块
  • 商丘网站制作的流程成都哪家公司做网站比较好
  • 010-58813333 可信网站博客系统wordpress
  • 成都网站建设服务密需湖南岚鸿案例c 网站开发中间层怎么写
  • 建设银行对公打不开网站个人工商户做网站备案
  • 公司介绍网站怎么做手工制作教程
  • 工信部网站怎么查网址旅游网站排名榜
  • app应用网站单页模板下载淘宝网站建设方式
  • 咋样做班级主页网站如何利用建站平台服务客户
  • 网站建设的中期报告如何在wordpress底部添加一个留言
  • 青梦建站东营招聘信息网官网
  • 网站做tips网站开发用什么系统比较好?
  • 如何做图片 网站 链接上海 高端网站建设
  • 湖南营销型网站建设 皆来磐石网络延边住房和城乡建设局网站