当前位置: 首页 > news >正文

开发网站的流程欧亚专线荷兰快递单号查询

开发网站的流程,欧亚专线荷兰快递单号查询,咸宁网站seo排名,济南公交优化join是两个结果集之间的链接#xff0c;需要进行数据的匹配。 演示一下join是否存在shuffle。 1. 如果两个rdd没有分区器#xff0c;分区个数一致 #xff0c;会发生shuffle。但分区数量不变。 scala val arr Array((zhangsan,300),(lisi,…join是两个结果集之间的链接需要进行数据的匹配。 演示一下join是否存在shuffle。 1. 如果两个rdd没有分区器分区个数一致 会发生shuffle。但分区数量不变。 scala val arr Array((zhangsan,300),(lisi,400),(wangwu,350),(zhaosi,450)) arr: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala val arr1 Array((zhangsan,22),(lisi,24),(wangwu,30),(guangkun,5)) arr1: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res116: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[108] at makeRDD at console:27scala sc.makeRDD(arr1,3) res117: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[109] at makeRDD at console:27scala res116 join res117 res118: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[112] at join at console:28scala res118.collect res119: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24))) 2. 如果分区个数不一致有shuffle且产生的rdd的分区个数以多的为主。 3. 如果分区个数一样并且分区器一样那么是没有shuffle的 scala sc.makeRDD(arr,3) res128: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[118] at makeRDD at console:27scala sc.makeRDD(arr1,3) res129: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[119] at makeRDD at console:27scala res128.reduceByKey(__) res130: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[120] at reduceByKey at console:26scala res129.reduceByKey(__) res131: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[121] at reduceByKey at console:26scala res130 join res131 res132: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[124] at join at console:28scala res132.collect res133: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24)))scala res132.partitions.size res134: Int 3 4. 都存在分区器但是分区个数不同也会存在shuffle scala val arr Array((zhangsan,300),(lisi,400),(wangwu,350),(zhaosi,450)) arr: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala val arr1 Array((zhangsan,22),(lisi,24),(wangwu,30),(guangkun,5)) arr1: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res0: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[0] at makeRDD at console:27scala sc.makeRDD(arr1,4) res1: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[1] at makeRDD at console:27scala res0.reduceByKey(__) res2: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[2] at reduceByKey at console:26scala res1.reduceByKey(__) res3: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[3] at reduceByKey at console:26scala res2 join res3 res4: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[6] at join at console:28scala res4.collect res5: Array[(String, (Int, Int))] Array((zhangsan,(300,22)), (wangwu,(350,30)), (lisi,(400,24)))scala res4.partitions.size res6: Int 4 这里为啥stage3里reduceByKey和join过程是连在一起的因为分区多的RDD是不需要进行shuffle的数据该在哪个分区就在哪个分区反而是分区少的RDD要进行join要进行数据的打散。 分区以多的为主。 5. 一个带有分区器一个没有分区器那么以带有分区器的rdd分区数量为主并且存在shuffle scala arr res7: Array[(String, Int)] Array((zhangsan,300), (lisi,400), (wangwu,350), (zhaosi,450))scala arr1 res8: Array[(String, Int)] Array((zhangsan,22), (lisi,24), (wangwu,30), (guangkun,5))scala sc.makeRDD(arr,3) res9: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[7] at makeRDD at console:27scala sc.makeRDD(arr,4) res10: org.apache.spark.rdd.RDD[(String, Int)] ParallelCollectionRDD[8] at makeRDD at console:27scala res9.reduceByKey(__) res11: org.apache.spark.rdd.RDD[(String, Int)] ShuffledRDD[9] at reduceByKey at console:26scala res10 join res11 res12: org.apache.spark.rdd.RDD[(String, (Int, Int))] MapPartitionsRDD[12] at join at console:28scala res12.partitions.size res13: Int 3scala res12.collect res14: Array[(String, (Int, Int))] Array((zhangsan,(300,300)), (wangwu,(350,350)), (lisi,(400,400)), (zhaosi,(450,450))) 同理stage6的reduceByKey过程和join过程是连在一起的是因为有分区器的RDD并不需要进行shuffle操作原来的数据该在哪在哪而没有分区器的RDD要进行join要进行数据的打散有shuffle过程所以有stage4到stage6的连线。
http://www.dnsts.com.cn/news/222211.html

相关文章:

  • qingdao城乡住房建设厅网站新商盟网站开发时间
  • 建设部网站投诉核查怎么给wordpress加背景图
  • 网页站点文件夹app开发平台有哪些
  • 智慧树网站的章节题做不了家里电脑如何做网站
  • 详述网站建设的过程教你做网站和学习教程熊掌号
  • 网站建设创新互联公司温州建站模板搭建
  • php做原生直播网站建网站制作
  • 网站开发要用到的工具wordpress玻璃质感主题
  • 做照片书的模板下载网站好微信网站开发哪家好
  • 怎样创建一个国际网站四川省住房和城乡建设厅网站不见了
  • 网站做好后提升学历的机构
  • 西安网站开发多少钱网站建设和管理是教什么
  • 网站建设需注意哪些事项cnetos 做网站服务
  • 外包网站建设集成电路行业人才
  • 网站建设类的手机软件建设工程信息平台官网
  • 公众号微网站建设自定义wordpress
  • 网站结构规划网站建设费用要摊销嘛
  • 尚义网站建设wl17581成都网上房地产
  • 在建设厅网站上下载资质标准网站建设公司营销方案
  • 网站建设公司排行杭州没网站怎么做京东联盟
  • 南京企业网站搭建上海市2022进博会
  • 网站最好的优化是什么网络科技公司排名
  • 开源 企业网站php 整个网站变量
  • 汉沽手机网站建设辽宁双高建设专题网站
  • 公司注册流程图及时间seo五大经验分享
  • 学软件开发好还是网站开发好佛山seo培训机构
  • 海口手机建站模板有哪些做数据分析的网站
  • 做自媒体网站开发南京医院网站建设方案
  • 东莞网络建站公司百度网站开发
  • 怎么做阿里巴巴国际网站中国比较有名的产品设计公司