当前位置: 首页 > news >正文

建设一个网站用什么软件免费发布信息网站大全有哪些

建设一个网站用什么软件,免费发布信息网站大全有哪些,怎么自己免费创建网站,网站备案是需要去哪里做#xff08;一#xff09; 什么情况下发生shuffle 在MapReduce框架中#xff0c;Shuffle是连接Map和Reduce之间的桥梁#xff0c;Map阶段通过shuffle读取数据并输出到对应的Reduce#xff1b;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中#xff0c…一 什么情况下发生shuffle 在MapReduce框架中Shuffle是连接Map和Reduce之间的桥梁Map阶段通过shuffle读取数据并输出到对应的Reduce而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。Spark也会有自己的shuffle实现过程。 在Spark中什么情况下会发生shuffle reduceByKey、groupByKey、sortByKey、countByKey、join等操作都会产生shuffle。 Spark的shuffle历经了几个过程 Spark 0.8及以前 使用Hash Based ShuffleSpark 0.8.1 为Hash Based Shuffle引入File Consolidation机制Spark1.6之后使用Sort-Base Shuffle因为Hash Based Shuffle存在一些不足所以就把它替换掉了。 二未优化的Hash Based Shuffle 假设我们是在执行一个reduceByKey之类的操作此时就会产生shuffle。 shuffle里面会有两种task一种是shuffleMapTask负责拉取前一个RDD中的数据还有一个ResultTask负责把拉取到的数据按照规则汇总起来。 1假设有1个节点这个节点上有2个CPU上面运行了4个ShuffleMapTask这样的话其实同时只有2个ShuffleMapTask是并行执行的因为一个cpu core同时只能执行一个ShuffleMapTask。 2每个ShuffleMapTask都会为每个ResultTask创建一份Bucket缓存以及对应的ShuffleBlockFile磁盘文件这样的话每一个ShuffleMapTask都会产生4份Bucket缓存和对应的4个ShuffleBlockFile文件。 3假设另一个节点上面运行了4个ResultTask现在等着获取ShuffleMapTask的输出数据来完成比如ReduceByKey的操作。 注意了如果有100个MapTask100个ResultTask那么会产生10000个本地磁盘文件这样需要频繁的磁盘IO是比较影响性能的。 注意 那个bucket缓存是非常重要的ShuffleMapTask会把所有的数据都写入Bucket缓存之后才会刷写到对应的磁盘文件中但是这就有一个问题如果map 端数据过多那么很容易造成内存溢出所以spark在优化后的Hash Based Shuffle中对这个问题进行了优化默认这个内存缓存是100kb当Bucket中的数据达到了阈值之后就会将数据一点一点地刷写到对应的ShuffleBlockFile磁盘中了。 这种操作的优点是不容易发生内存溢出。缺点在于如果内存缓存过小的话那么可能发生过多的磁盘io操作。所以这里的内存缓存大小是可以根据实际的业务情况进行优化的。 三优化后的Hash Based Shuffle 1假设机器上有2个cpu4个shuffleMaptask这样同时只有2个在并行执行 2在这个版本中Spark引入了consolidation机制一个ShuffleMapTask将数据写入ResultTask数量的本地文件中这个是不变的但是当下一个ShuffleMapTask运行的时候可以直接将数据写入之前产生的本地文件中相当于对多个ShuffleMapTask的输出进行了合并从而大大减少了本地磁盘中文件的数量。 此时文件的数量变成了CPU core数量 * ResultTask数量比如每个节点上有2个CPU有100个ResultTask那么每个节点上会产生200个文件。 但是如果 ResultTask端的并行任务过多的话则 CPU core * Result Task 依旧过大也会产生很多小文件。 四Sort-Based Shuffle 为了让 Spark 能在更大规模的集群上高性能处理大规模的数据因此 Spark 引入了 Sort-Based Shuffle。 该机制针对每一个 ShuffleMapTask 都只创建一个文件将所有的 ShuffleMapTask 的数据都写入同一个文件并且对应生成一个索引文件。 以前的数据是放在内存中等到数据写完了再刷写到磁盘现在为了减少内存的使用在内存不够用的时候可以将内存中的数据溢写到磁盘结束的时候再将这些溢写的文件联合内存中的数据一起进行归并从而减少内存的使用量。一方面文件数量显著减少另一方面减少缓存所占用的内存大小而且同时避免 GC 的风险和频率。
http://www.dnsts.com.cn/news/64181.html

相关文章:

  • 房地产中介网站坪地网站建设怎么样
  • 网站值不值得做seo建筑模板价格现在是多少的
  • 网站制作建站wordpress 自动标签插件
  • 石家庄网站建设推广公司报价wordpress登陆
  • 在线做试卷的网站wordpress 打开满
  • 陵水网站建设方案网站后缀pw
  • 北京微信网站开发费用五种关键词优化工具
  • 自己的网站建设百度推广渠道户
  • 网站建设与维护专业实训室西安网站建立
  • 网站全局参数设置网站制作用什么语言
  • 国外的创意设计网站网页模板下载 免费 html
  • 技术网站建设修改数据库密码 进不了网站后台
  • 网站欢迎页面代码wordpress jquery插件
  • 抖音代刷网站推广快速到底建手机网站还是电脑网站
  • 湖北省城建设计院网站wordpress面包屑插件
  • 做网站用的什么编程语言公司网站本地如何弄
  • 公司网站抄袭广告公司主要是做什么的
  • 开公司做购物网站是不是想多了网站和网页建设题目
  • 苏州集团网站制作开发建站之星破解版
  • 怎样做百度网站推广国外营销型网站建设
  • 如何申请免费网站空间服装定制软件
  • 上海网站建设找哪家公司wordpress怎么更换系统文件夹
  • 扬州网站seo太原网络搭建
  • 做彩票网站怎么样wordpress下雪插件
  • 网站点击弹出下载框 怎么做怎样做汽车之家视频网站
  • 电子商务网站建设报告wordpress主题图片路径设置
  • 南山附近公司做网站建设多少钱青岛做一个网站多少钱
  • 杭州网站设计费用小程序商城页面设计模板
  • 产品如何做网站地图安阳网警
  • 怎么做网站的签约编辑它有什么特点