当前位置: 首页 > news >正文

邯郸市建设局网站2017内蒙古网站开发公司

邯郸市建设局网站2017,内蒙古网站开发公司,企业网站产品分类多怎么做seo,网站广告的优势1、数据倾斜表现 1.1 hadoop中的数据倾斜表现 有一个多几个Reduce卡住#xff0c;卡在99.99%#xff0c;一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大#xff0c;至少远远超过其它正常的Reducer伴随着数据倾斜#xff0c;会出现任务被kill等各种诡异… 1、数据倾斜表现 1.1 hadoop中的数据倾斜表现 有一个多几个Reduce卡住卡在99.99%一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大至少远远超过其它正常的Reducer伴随着数据倾斜会出现任务被kill等各种诡异的表现。 1.2 hive中数据倾斜 一般都发生在Sql中group by和join on上而且和数据逻辑绑定比较深。 1.3 Spark中的数据倾斜 Spark中的数据倾斜包括Spark Streaming和Spark Sql表现主要有下面几种 Executor lostOOMShuffle过程出错Driver OOM单个Executor执行时间特别久整体任务卡在某个阶段不能结束正常运行的任务突然失败 2、数据倾斜产生原因 我们以Spark和Hive的使用场景为例。 在做数据运算的时候会涉及到count distinct、group by、join on等操作这些都会触发Shuffle动作。一旦触发Shuffle所有相同key的值就会被拉到一个或几个Reducer节点上容易发生单点计算问题导致数据倾斜。 一般来说数据倾斜原因有以下几方面 1key分布不均匀 2建表时考虑不周 举一个例子就说数据默认值的设计吧假设我们有两张表 user用户信息表useridregister_ip ipIP表ipregister_user_cnt 这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话会出现一种情况 user表中的register_ip字段如果获取不到这个信息我们默认为null 但是在ip表中我们在统计这个值的时候为了方便我们把获取不到ip的用户统一认为他们的ip为0。 两边其实都没有错的但是一旦我们做关联了这个任务会在做关联的阶段也就是sql的on的阶段卡死。 3业务数据激增 比如订单场景我们在某一天在北京和上海两个城市多了强力的推广结果可能是这两个城市的订单量增长了10000%其余城市的数据量不变。 然后我们要统计不同城市的订单情况这样一做group操作可能直接就数据倾斜了。 3、解决数据倾斜思路 很多数据倾斜的问题都可以用和平台无关的方式解决比如更好的数据预处理异常值的过滤等。因此解决数据倾斜的重点在于对数据设计和业务的理解这两个搞清楚了数据倾斜就解决了大部分了。 1业务逻辑 我们从业务逻辑的层面上来优化数据倾斜比如上面的两个城市做推广活动导致那两个城市数据量激增的例子我们可以单独对这两个城市来做count单独做时可用两次MR第一次打散计算第二次再最终聚合计算。完成后和其它城市做整合。 2程序层面 比如说在Hive中经常遇到count(distinct)操作这样会导致最终只有一个Reduce任务。 我们可以先group by再在外面包一层count就可以了。比如计算按用户名去重后的总用户量 1优化前  只有一个reduce先去重再count负担比较大 select name,count(distinct name)from user; 2优化后 // 设置该任务的每个job的reducer个数为3个。Hive默认-1自动推断。 set mapred.reduce.tasks3; // 启动两个job一个负责子查询(可以有多个reduce)另一个负责count(1) select count(1) from (select name from user group by name) tmp; 3调参方面 Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜合理利用它们就能解决大部分问题。 4从业务和数据上解决数据倾斜 很多数据倾斜都是在数据的使用上造成的。我们举几个场景并分别给出它们的解决方案。 一个原则尽早过滤每个阶段的数据量。 数据有损的方法找到异常数据比如ip为0的数据过滤掉。数据无损的方法对分布不均匀的数据单独计算。hash法先对key做一层hash先将数据随机打散让它的并行度变大再汇聚。数据预处理就是先做一层数据质量处理类似于数据仓库维度建模时底层先处理数据质量。
http://www.dnsts.com.cn/news/34780.html

相关文章:

  • 门户网站是专一化好还是多元化好全球最新数据消息
  • 备案期间关闭网站梅州建站塔山双喜
  • 建筑专业网站wordpress 分类 字段
  • 网站开发 策划是干嘛的大棚网站建设
  • wordpress网站外包网页设计师工资一般多少钱
  • ASP.NET2.0网站开发全程解析餐厅装修设计
  • 做投票网站的网站建设的常用技术有哪些
  • 比分网站制作淘宝优惠券网站开发
  • 网站模版防被偷哈尔滨市工程信息网
  • 织梦末班和dw建设网站哪个方便优化WordPress页面怎么html
  • 酒店网站设计方案山东川畅科技做网站多少钱
  • 建设工程自学网站公司域名一年多少费用
  • 商业摄影网站源码医疗网站不备案
  • 卫浴建材网站建设小程序游戏开发成本
  • 做资源网站有哪些网站怎么做会员系统
  • 网站制作职业帮人推广的平台
  • 深圳团购网站设计价格安康市天然气公司
  • 高端网站建设万维科技汇米网站建设
  • 电商网站开发详细介绍做网站加推广多少钱
  • 福建省第一电力建设公司网站佛山外贸网站建设效果
  • 网站电话素材seo实训报告
  • c 网站开发程序员公司免费网站注册
  • 企业网站后台管理手机开发人员选项怎么打开
  • 长沙建网站一般要多少钱个人网站 备案 名称
  • 一些网站只能在微信打开怎么做的html5手机网站模板
  • 邯郸网站建设设计网站建设的毕业设计选题管理系统
  • 建设的比较好的网站公司网站属于信息化建设吗
  • 建设网站外贸徐州人才网官方网站
  • 厦门网站建设cnmxcm网站页面优化怎么做
  • 网站免费主机埃及网站后缀