当前位置: 首页 > news >正文

怎么在自己做的网站上发视频教程中国建材人才网

怎么在自己做的网站上发视频教程,中国建材人才网,网站设计专业有哪些课程,推广方案流程本文根据2024云栖大会实录整理而成#xff0c;演讲信息如下#xff1a; 演讲人#xff1a; 李钰#xff08;绝顶#xff09; | 阿里云智能集团资深技术专家#xff0c;阿里云 EMR 团队负责人 活动#xff1a; 2024 云栖大会 AI - 开源大数据专场 数据平台技术演变 …本文根据2024云栖大会实录整理而成演讲信息如下 演讲人 李钰绝顶 | 阿里云智能集团资深技术专家阿里云 EMR 团队负责人 活动 2024 云栖大会 AI - 开源大数据专场 数据平台技术演变 追溯数据处理软件及平台的演进历程每一次大的架构升级与变迁都是由全球范围的新兴应用出现和落地触发的。具体来说20世纪60-70年代数据库技术出现数据库技术的普及和落地与个人计算机PC兴起的浪潮息息相关。直至21世纪初互联网应用爆发前单机数据库技术在数据处理领域一直占据着统治地位。 进入21世纪国外以Google的搜索引擎、Facebook的社交网络、Amazon的电子商务为标志国内以百度、腾讯、阿里等为领军标志着互联网应用开始大范围普及。互联网应用的普及逐渐反映出传统单机数据库系统在处理能力与扩展性上存在的局限性难以支撑新兴业务的高速增长。Google在2003年发布了Google File System、2004年发布了MapReduce论文标志着大数据技术时代的到来引领了以Hadoop、HBase、Hive等为代表的开源大数据技术的兴起与发展。 随后2007年iPhone的问世引领了智能手机时代的到来推动移动互联网的兴起与应用多元化进一步催生了计算引擎的发展。大约从2010年开始以Apache Spark为代表的批处理引擎、以Apache Flink为代表的流处理引擎、以Presto为代表的OLAP分析引擎逐渐成为数据处理领域的主流技术满足了复杂多变的计算需求。 至2017年左右随着直播与短视频等多媒体内容的爆发数据形态趋向多模态对数据处理框架的灵活性提出了更高要求。这一背景下数据湖技术应运而生旨在应对数据多样性带来的挑战。而2022年大语言模型的登场揭开了人工智能应用时代的序幕AI生成内容AIGC的飞速发展不仅促使数据规模呈指数级增长还进一步提升了非结构化、多模态数据的占比对数据处理技术提出了全新的挑战与机遇。 面对这些新兴挑战传统数据架构显得力不从心亟需向更适应当前需求的方向演进。传统数据仓库具备高度结构化的特点开箱即用然而其高昂的存储成本、较低的数据开放性和灵活性成为了主要痛点。尤其是在需要多场景使用时如同时支持离线和实时分析的情况下必须通过数据同步来导入导出进一步增加了复杂度。随着多媒体数据的增长以及对数据灵活性的要求越来越高基于对象存储的数据湖架构应运而生这类架构以其低成本存储和高灵活性著称同时也采用了更加开放的数据格式。但是它们在事务支持方面相对较弱性能上也无法完全取代数据仓库。 鉴于上述情况往往需要采用混合策略将相对成熟且价值较高的数据业务应用在数据仓库中进行而相对新兴对灵活性要求较高的数据业务应用则基于数据湖部署。这种混合策略虽然能够在一定程度上满足需求但不可避免地带来了额外的数据一致性维护成本以及数据冗余问题增加了系统的整体复杂性。在AI应用即将普及的新时代背景下可以预见未来几年内应用领域的变化将会异常迅速继续沿用旧模式将不再可行因为这会导致极高的成本支出及难以应对的业务复杂度增长。 因此我们认为融合了数据湖与数据仓库优点的数据湖仓一体架构Lakehouse是发展的必然趋势。该架构在数据湖的基础上进一步优化同时具备数据仓库的能力。具体而言从架构层面看数据湖仓可分为三层 底层是湖仓存储层负责解决数据事务性、一致性与存储有效性。 中间层是湖仓管理层专注于结构化、半结构化和非结构化数据统一元数据管理解决数据治理及安全问题。 最上层是湖仓分析层由多种计算引擎构成其中Apache Spark是开源领域经过多年发展的明星项目。 在海外Databricks已经提供了基于Spark构建的成熟的全托管产品但在国内市场上仍缺乏相应的产品。为此阿里云推出了EMR Serverless Spark旨在填补这一空白提供一个全面整合的数据湖仓解决方案。 EMR Serverless Spark 功能特性 接下来我将介绍 EMR Serverless Spark 的主要功能与特性。正如前面提到的在数据湖仓分析层我们主要关注两个核心问题。首先是业务易用性。所谓业务易用性指的是能否通过一款湖仓分析产品既能进行大数据处理又能进行AI、数据科学处理。其次性能也是一个至关重要的考量因素在数据湖的基础上其性能是否可以与传统数仓媲美。除易用性和性能之外开放性也是不可忽视的一个因素。鉴于数据湖本身强调的是开放性和灵活性因此EMR Serverless Spark设计时充分考虑了对开源Spark生态系统的全面兼容性。最后云原生也是需要关注的因素。下面我将从上述方面进一步展开。 一站式数据开发 首先从平台能力角度来看EMR Serverless Spark提供了作业开发、调试、发布、调度等一站式数据开发体验。无论是传统的ETL、交互式数据分析、或者基于Python的数据科学数据业务都可以基于 EMR Serverless Spark 进行开发。开发之后可以进行版本管理和生产上线生产上线后EMR Serverless Spark内置工作流可以进行任务调度并对任务和工作流进行有效监控资源使用情况方面也会全面关注。 数据开发-内置SQL编辑器 在数据开发层面EMR Serverless Spark 内置了一个SQL编辑器。支持用户编写 Interactive Query 和 ETLQuery并支持将不同类型的 Query 提交到不同的资源队列中运行从而实现对计算资源的有效管理和分配。我们的资源管理体系提供了队列与会话两种形式便于用户根据需求区分开发环境与生产环境中的工作负载。同时SQL editor 还支持元数据视图。用户可以看到元数据库表情况并对这些库表进行增删改查等操作。 数据分析 – Notebook 交互式环境 除了内置 SQL 编辑器之外EMR Serverless Spark还提供了交互式的Notebook环境。在Notebook中用户不仅能够编写和执行SQL语句还能用Python 进行开发并且可以根据需求灵活地安装各种Python库例如Pandas。此外我们还提供了一套完善的运行环境管理。用户可以通过Notebook界面轻松开发大数据AI一体化应用。 工作流调度 通过SQL编辑器或Notebook完成任务开发后无论是单个SQL作业还是由多个脚本组成的Notebook作业都可以通过EMR Serverless Spark 内置工作流进行调度。支持查看工作流运行情况不同的工作流拓扑还提供以拖拉拽方式便捷构建工作流的能力。 指标大盘 在工作流和任务调度启动后EMR Serverless Spark支持通过指标大盘查看任务运行状态。提供 Spark 任务实例的 CPU、Memory、JVM、Driver scheduler、Executor – IO、Executor – Shuffle 等指标的可视化展示还支持通过查看和分析作业CPU时、内存时等聚合性指标识别性能瓶颈和异常情况并进行优化和故障排查。 资源观测 此外EMR Serverless Spark 提供完善的资源观测。用户可以根据部门或业务需求灵活地拆分资源队列。基于这些队列的资源使用情况可以清晰地了解各个部门及业务线所占用的具体资源量。此外针对不同队列之间的Quota限制也支持动态调整。 监控诊断 最后考虑到作业调优本身是一个相当复杂的过程所以EMR Serverless Spark 还提供针对单个作业进行一键诊断的能力。能够智能化分析作业是否存在数据倾斜、垃圾回收等方面的异常并基于诊断结果提供明确建议以帮助用户更高效地优化作业。 极致性能 - 自研 Fusion 引擎 除了强大的平台能力EMR Serverless Spark 还提供自主研发的企业级内核—Fusion Engine。这款引擎在两个方面做了极致的性能优化 面向CPU密集型业务提供基于C语言实现的 Native 向量化 SQL 引擎充分利用SIMD指令集加速运算过程显著降低CPU和内存开销。 面向I/O密集型业务基于我们贡献给Apache社区的开源Celeborn项目我们内置了Remote Shuffle Service支持多租户和资源隔离同时提供极致弹性实现I/O密集型业务加速。 根据TPC-DS基准测试结果表明在10TB规模下相较于Apache SparkEMR Serverless Spark能够实现5倍左右的性能提升而在更大规模如100TB的数据量上相比TPCDS榜首暨 DataBricks 在2021年提交的成绩EMR Serverless Spark 则实现了44%左右的性能增长同时性价比提升3倍。由此可见EMR Serverless Spark 自研 Fusion 引擎的极致性能。 全方位生态兼容 最后值得一提的是EMR Serverless Spark还具备全方位生态兼容性。它不仅可以无缝对接阿里云 DLF 2.0元数据管理系统和全托管存储解决方案同时也支持与Hive Metastore等开源元数据管理系统集成确保使用 HMS OSS 进行元数据管理和数据存储的场景也能很好的支持。此外在数据提交方面EMR Serverless Spark也提供了多种接入方式包括但不限于Livy Gateway、Thrift Server以及JDBC接口。针对工作流调度EMR Serverless Spark 基于 OpenAPI 提供官方的 Airflow 和 DolphinScheduler Operator。最后还支持以 Spark_submit 命令提交任务兼容开源提交方式。通过上述措施EMR Serverless Spark 致力于打造一个全方位兼容Spark生态系统的数据湖仓分析平台为广大用户提供更加便携高效的使用体验。 客户案例 接下来我将向大家介绍两个已经在生产环境中使用 EMR Serverless Spark 的客户案例。 客户案例-美的 美的集团的数据湖仓架构完全基于 EMR Serverless Spark 构建。首先它利用Spark Streaming技术将工业设备数据源中数据流式写入到基于Hudi格式的数据湖仓当中。尽管我们在OpenLake框架内推荐使用Paimon作为首选湖格式但 EMR Serverless Spark 产品全面支持包括Iceberg、Hudi及Delta Lake在内的多种流行湖存储方案。无论采用何种湖格式均需进行Compaction 以提升查询效率。在此过程中美的则充分利用了EMR Serverless Spark提供的资源来进行Compaction。此外美的使用EMR Serverless Spark 进行数据清洗。从原始的ODS层基于 EMR Serverless Spark 进行 ETL然后生成明细数据再结合业务特点对明细层的数据做进一步抽取生成更高维的指标供业务使用。在AI应用场景下美的同样依赖于 EMR Serverless Spark的强大支持。借助 EMR Serverless Spark Notebook能力开发人员可以安装自定义Python库结合自研算法对数据进行聚合与分析。最终无论是数仓链路产生的数据还是AI相关的基础数据都将被统一导出至StarRocks中以便于企业内部进行 BI 报表分析。综上所述美的基于 EMR Serverless Spark 进行一站式数据湖仓分析促进了数字化转型进程中的效率提升与创新实践。 客户案例-鹰角网络 第二个案例是知名游戏公司上海鹰角网络科技鹰角采用基于 EMR Serverless Spark 的开源兼容解决方案。首先鹰角使用 Flink CDC 进行数据同步与入湖采用的是Paion数据湖格式。完成数据入湖之后整个数仓的数据处理链路则完全基于 EMR Serverless Spark进行数据清洗和提取。值得注意的是在工作流调度方面鹰角同时部署了Airflow与DolphinScheduler两种不同的调度框架。对于编码能力较强的数据工程师而言Airflow 提供了更为灵活且强大的能力以支持构建高度定制化的工作流程而针对编码能力相对较弱的数据分析师则可以通过 DolphinScheduler 提供的图形化界面轻松创建并管理相对简单的作业调度计划。无论采用Airflow还是DolphinScheduler进行调度通过 EMR Serverless Spark 提供的 Operator都能够无缝接入 EMR Serverless Spark 服务确保了资源利用效率的最大化以及运维成本的有效控制。鹰角同样选用 StarRocks 作为实时OLAP分析的核心组件数据展示则是使用Superset。此外EMR Serverless Spark 也支持海外服务鹰角海外Region已经开始使用EMR Serverless Spark。 通过以上两个案例可以发现无论是一站式湖仓分析或大规模离线计算EMR Serverless Spark 在实际生产环境中都得到了很好的应用。 DEMO 接下来我们以汽车销售场景为例演示如何利用 EMR Serverless Spark平台结合 DLF2.0 和 Paimon 构建Lakehouse完成数据加载、ETL处理、数据可视化和预测分析的全过程。 视频链接https://cloud.video.taobao.com/vod/nXtj_Ip2TqouF9By57OthZIsoOaWMzgWQaFu0iWyUSc.mp4 阿里云 EMR Serverless Spark 版已于2024年9月14日正式商业化售卖欢迎体验 如果您在使用 EMR Serverless Spark 版的过程中遇到任何疑问可加入钉钉群群号58570004119咨询。 为了助力 LakeHouse 架构在企业中的实践与落地阿里云 EMR 技术团队联合 Apache Paimon 社区联合举办“ Apache Spark Paimon助力 LakeHouse 架构生产落地”线下 Meetup邀请阿里云、VIVO、美团等众多业内大咖分享 LakeHouse 架构的核心技术和最佳实践经验为大数据从业者提供一个开放的分享与交流平台。 点击下方链接或扫描二维码立即报名https://x.sm.cn/4mJeCkB
http://www.dnsts.com.cn/news/24694.html

相关文章:

  • 商丘网站公司优化公司内部流程
  • 学生求职网站的需求分析怎么做网页微信版登录
  • 邮箱网站怎么做装修公司网站源码php
  • 北京做网站公司电话seo软文推广工具
  • 扬州外贸网站seowordpress博客头图怎么改
  • 医院网站建设 费用做暧暧视频免费视频中国网站
  • 一个简单的网站怎么做的太原网站公司
  • 网网站设计网网站构建培训
  • 单位网站设计流程步骤网站建设需要的客户资料
  • 一般的域名可以做彩票网站吗电商在线设计网站
  • 建网站需要多少钱和什么条件微网站开发素材
  • 网站安全性怎么做门户网站建设内容
  • 做网站端口内容无法替换wordpress采集新浪博客
  • 建设电影网站数据库脚本wordpress 官网主题
  • 平台如何制作网站网站建设工作室发展
  • 苏州网站建设规划最近一周的热点新闻
  • 贵阳网站建设会计专业的简历制作
  • 安徽网站优化价格咨询重庆市建设政务中心网站
  • 物流企业网站织梦模板域名注册网站
  • 权威的赣州网站建设wordpress文章衔接出错
  • 大型购物网站开发网站建设的重要性意义与价值
  • 科技馆网站建设背景专业的网站建设收费标准
  • 厦门网站建设方案外包设计专业网站有哪些
  • 常州免费网站建站模板淘宝刷单网站制作
  • 网站的文章标题太短怎么弄vps wordpress mysql优化
  • 网站推广招商南京网燃网络科技有限公司
  • 网站建设培训一般多少钱wordpress文章排版编辑器
  • 淘宝可以在哪些网站上面打做推广胶州房产网
  • 金昌市建设局网站东莞建设工程造价管理网站
  • 建设网站的整个费用预算做网站分几步