当前位置: 首页 > news >正文

简单网站设计价格京东网站是自己做的吗

简单网站设计价格,京东网站是自己做的吗,株洲关键词优化,做文字图片的网站一、背景 为了理解Spark Streaming提供的语义#xff0c;我们先回顾西Spark RDD的基本容错语义学。 RDD是一个不可变的、确定性可重新计算的分布式数据集。每个RDD都记住在容错输入数据集上用于创建它的确定性操作的沿袭。如果RDD的任何分区由于工作节点故障而丢失#xff…一、背景 为了理解Spark Streaming提供的语义我们先回顾西Spark RDD的基本容错语义学。 RDD是一个不可变的、确定性可重新计算的分布式数据集。每个RDD都记住在容错输入数据集上用于创建它的确定性操作的沿袭。如果RDD的任何分区由于工作节点故障而丢失则可以使用操作沿袭从原始容错数据集重新计算该分区。假设所有RDD转换都是确定性的最终转换后的RDD中的数据将始终相同而不管Spark集群中的故障如何 Spark对HDFS或S3等容错文件系统中的数据进行操作。因此从容错数据生成的所有RDD也是容错的。然而Spark Streaming并非如此因为在大多数情况下数据是通过网络接收的使用fileStream时除外。为了实现所有生成的RDD的相同容错属性接收到的数据将在集群中工作节点的多个Spark executors 之间复制默认复制因子为2。这导致系统中有两种数据需要在发生故障时恢复 接收和复制的数据-此数据在单个工作节点发生故障时幸存下来因为它的副本存在于其他节点之一上已接收但为复制而缓冲的数据-由于未复制因此恢复此数据的唯一方法是从源再次获取它 此外我们应该关注两种失败 工作节点的故障-任何运行执行器的工作节点都可能发生故障并且这些节点上的所有内存数据都将丢失。如果任何接收器在故障节点上运行那么它们的缓冲数据将丢失。驱动程序节点的故障-如果运行Spark Streaming应用程序的驱动程序节点发生故障那么显然SparkContext丢失了并且所有具有内存数据的执行程序都丢失了。 有了这些基础知识我们下面开始学习Spark Streaming的容错语义学 二、整体语义 流系统的语义学通常是根据系统可以处理每条记录的次数来捕获的。系统可以在所有可能的操作条件下尽管有故障等提供三种类型的保证。 最多处理一次每条记录要么处理一次要么根本不处理至少一次每条记录将被处理一次或多次。这比最多一次更强因为它确保没有数据丢失。但可能会有重复。精确一次每条记录将被精确处理一次 - -- 没有数据丢失也没有数据被多次处理。这显然是三者中最强大的保证。 在任何流处理系统中广义上讲处理数据有三个步骤。 接收数据使用接收器或其他方式从源接收数据。转换数据使用DStream和RDD转换转换接收到的数据推送数据最终转换后的数据被推送到外部系统如文件系统、数据库、仪表板等 如果一个流式应用程序必须实现端到端的精确一次保证那么每个步骤都必须提供精确一次保证。也就是说每条记录必须精确接收一次精确转换一次并精确推送到下游系统一次。Spark Streaming采用的是RDD来处理数据RDD中间的转化操作都是迭代器模式可以保证所有接收到的数据将只处理一次。即使出现故障只要接收到的输入数据是可访问的最终转换的RDD将始终具有相同的内容。这样就剩下接收数据和推送数据的保证这两点我们再后面结合不同的输入源提供的保证以及下游系统的不同来进行详细分析。 三、接收数据语义 不同的输入源提供不同的保证从至少一次到恰好一次。 1、输入源是文件 如果所有输入数据都已经存在于像HDFS这样的容错文件系统中Spark Streaming总是可以从任何故障中恢复并处理所有数据。这给出了一次语义学这意味着无论发生什么故障所有数据都将被处理一次。 2、输入源是接收器Receiver 对于基于接收器的输入源容错语义学取决于故障场景和接收器类型。正如我们之前讨论的有两种类型的接收器 可靠的接收器——这些接收器只有在确保接收到的数据已经被复制后才会确认可靠的来源。如果这样的接收器发生故障源将不会收到缓冲未复制数据的确认。因此如果接收器重新启动源将重新发送数据并且不会因故障而丢失数据。不可靠的接收器-这种接收器不发送确认因此当它们由于工作人员或驱动程序故障而失败时可能会丢失数据 根据使用的接收器类型如果工作节点发生故障那么可靠的接收器不会丢失数据。对于不可靠的接收器接收但未复制的数据可能会丢失。如果driver 发生故障那么除了这些丢失之外所有过去在内存中接收和复制的数据都将丢失。这将影响有状态转换的结果。 为了避免过去接收到的数据丢失Spark 1.2引入了预写日志将接收到的数据保存到容错存储中。由于启用了预写日志和可靠的接收器数据丢失为零。就语义学而言它提供了至少一次保证。 因此推荐采用的模式为带有预写日志的Spark 1.2或更高版本 3、输入源是Kafka的Direct API 在Spark 1.3中引入了一个新的Kafka Direct API它可以确保Spark Streaming只接收一次所有Kafka数据。 四、输出数据语义 输出操作如foreachRDD至少有一次语义学也就是说在worker 节点失败的情况下转换后的数据可能会多次写入外部实体。虽然这对于使用saveAs***Files操作保存到文件系统是可以接受的因为文件将被相同的数据覆盖但可能需要额外的努力来实现一次语义学。有两种方法。 1、幂等更新多次尝试总是写入相同的数据。例如SaveAs***Files总是将相同的数据写入生成的文件。 2、事务性更新所有更新都是以事务性方式进行的因此更新仅以原子方式进行一次。 使用批处理时间在foreachRDD中可用和RDD的分区索引来创建标识符。此标识符唯一标识流应用程序中的blob数据使用标识符以事务方式即仅一次原子方式使用此blob更新外部系统。也就是说如果标识符尚未提交请原子方式提交分区数据和标识符。否则如果已经提交请跳过更新。 dstream.foreachRDD { (rdd, time) rdd.foreachPartition { partitionIterator val partitionId TaskContext.get.partitionId()val uniqueId generateUniqueId(time.milliseconds, partitionId)// 使用此uniqueId在partitionIterator中事务性提交数据} } 大多数高校硕博生毕业要求需要参加学术会议发表EI或者SCI检索的学术论文会议论文 可访问艾思科蓝官网浏览即将召开的学术会议列表。会议如下 第四届大数据、信息与计算机网络国际学术会议BDICN 2025 广州https://ais.cn/u/fi2yym 第四届电子信息工程、大数据与计算机技术国际学术会议EIBDCT 2025 青岛https://ais.cn/u/nuQr6f 第六届大数据与信息化教育国际学术会议ICBDIE 2025 苏州https://ais.cn/u/eYnmQr 第三届通信网络与机器学习国际学术会议(CNML 2025) 南京https://ais.cn/u/vUNva2
http://www.dnsts.com.cn/news/248999.html

相关文章:

  • 集团网站怎么建设贵阳网站建设运营
  • 企业网站管理制度建设群辉 wordpress 端口
  • 网站建设中如何使用字体wordpress搜索不到插件
  • 南宁百度网站公司建设银行官方网站登录电脑版
  • wordpress做视频网站vue做的手机网站
  • 网站导航是什么如何让新网站被收录
  • 中型企业网站建设做专利费减是哪个网站
  • 深圳外贸网站制作价格沈阳市城市建设网站
  • 网站开发 法律申明天眼在线查企业查询系统
  • 邓州市网站建设哈尔滨精致网站建设
  • 吴江做网站济南响应式网站建设
  • 公司网站翻译工作怎么做合肥做网站yuanmus
  • 建设网站需要什么条件做网站都要掌握什么
  • 成都企业网站建设介绍泰州网站建设公司哪家好
  • 电话做网站的推广网络营销项目
  • 英文网站建设哪家强自己做ppt网站
  • 适合友情链接的网站如何做专业的模板下载网站
  • 手机网站域做什么广告服务器和网站空间
  • 华久网站建设公司必备的几个部门
  • 深圳建网站技术怎么推广公司的网站
  • 网站下雪代码建设工程管理是做什么的
  • 网站访问统计js代码自己做网站怎么挣钱
  • 网站建设与管理好学吗wordpress纯代码下载
  • 宏润建设网站wordpress移植
  • 东莞陈村网站制作广州网站建设新锐
  • 微生成网站提示网站建设页面
  • 找人做网站毕业设计莱州市建设局网站
  • 西安外贸网站搭建广西上林县住房城乡建设网站
  • 简述建设一个网站的基本步骤i深圳谁开发的
  • 安徽省建设厅网站首页用excel做网站