租腾讯服务器做网站行吗,优化公司股权结构,怎么学做网站跟聊天软件,淘宝u站怎么做网站的作者 | 代立冬#xff0c;白鲸开源科技联合创始人CTO
引言
在AI驱动的商业世界中#xff0c;DataOps作为连接数据与洞察的桥梁#xff0c;正迅速成为企业数据战略的核心。
在WOT全球技术创新大会2024北京站#xff0c;白鲸开源联合创始人CTO 代立冬 在「大数据…
作者 | 代立冬白鲸开源科技联合创始人CTO
引言
在AI驱动的商业世界中DataOps作为连接数据与洞察的桥梁正迅速成为企业数据战略的核心。
在WOT全球技术创新大会2024·北京站白鲸开源联合创始人CTO 代立冬 在「大数据技术与基础设施」专场深入分析DataOps的核心理念、AI大模型开发流程并通过白鲸开源科技的实践案例展望了DataOps的未来。
DataOps核心理念
DataOps是一种新兴的数据管理和开发方法论旨在通过自动化和协作提高数据管道的效率和质量。
DataOps 在大模型开发中的作用
大模型训练关键要素
数据集大量、多样化、高质量的数据是训练和微调大模型的基础模型架构包括网络层数、隐藏层的大小、参数的类型等算力大模型训练需要极其强大计算资源包括高性能的GPU如 A100 等
DataOps与AI模型开发的融合将加速AI模型的开发周期提升模型的准确性和效率。
大模型训练流程
大模型训练是一个多阶段过程涉及数据工程、算法工程和运维。 数据工程阶段包括
数据源确定数据起点包括云、SaaS、本地等混合数据源。数据准备与数据流管理涉及数据抽取、转换、加载ETL和数据质量管理。大模型训练利用高质量数据训练模型包括模型评估与测试。数据质量管理包括数据版本管理、数据质量管控、数据影响分析
算法工程阶段包括大模型训练、模型评估预测试其中经过预训练、指令微调、增强学习的步骤并完成性能评估、模型验证和模型优化训练编排的pipeline才算完成最终将训练完成的模型应用于实际业务场景。
企业面临的数据挑战
企业在新技术环境下面临数据源多样化、数据处理流程复杂化等挑战具体包括
企业内拥有多组 “数据平台”数据资源和流程分散在各部门难以掌控企业大数据开发处于“野蛮生长状态”整体研发管理距离应用开发DevOps流程相差甚远大数据、流数据、AI数据加工缺乏工具管控形成了企业新的“蜘蛛网”多种新兴数据引擎、云原生、新数据架构的变化缺乏管控数据血缘、同步、调度与数据发展严重落后。
新技术环境下EtLT架构出现
云、SaaS、本地混合数据源让传统的数据处理流程从ETL、ELT变为能更加快速满足业务需求的EtLT架构EtLT能更加敏捷地应对离线/实时数据湖、数据仓库、AI模型训练当中的复杂多变的数据需求场景从而解决以上企业面临的诸多数据挑战。 白鲸开源是一家开源原生的DataOps商业公司由多个Apache Member成立80%员工都是Apache Committer主导2个 Apache顶级开源项目(Apache DolphinScheduler, Apache SeaTunnel同时根据全球最佳实践发布商业版本 --WhaleStudio帮助企业在大数据和AI时代智能化地完成多数据源、多云及信创环境的数据集成数据开发、工作流编排运维及部署、数据质量管控、团队敏捷协作等一系列问题已在 6000多家企业中得到实践和使用。 DataOps关键实践之任务调度平台
Apache DolphinScheduler云原生调度引擎
作为云原生的调度引擎DolphinScheduler支持大数据工作流解决企业级场景中的多个任务单元、高执行频率、数据量大等痛点。 DataOps关键实践之数据集成工具
Apache SeaTunnel新一代实时多源数据同步工具
在数据集成领域企业面临的技术和业务挑战同样严峻
数据源多达几百种版本间不兼容而且不断有新的出现数据丢失与重复无法一致性出现问题无法回滚或者断点继续执行同步过程不透明缺少监控频繁读取 binlog 对数据源端影响大大事务、Schema 变更影响下游低吞吐高时延导致数据无法及时到达离线同步和实时同步常被分开管理维护困难数据割接人工进行
Apache SeaTunnel是新一代实时多源数据同步工具支持130种数据源提供批量和实时数据集成。可以有效地解决以上企业面临的困境。 Apache SeaTunnel特点 同时为了实现更高效的数据集成Apache SeaTunnel社区还“重复造轮子”自研了专门为数据引擎而设计的SeaTunnel Zeta Engine。
与Spark、Flink等流行引擎相比Apache SeaTunnel在数据同步上的优势显而易见 典型案例
同样地Apache SeaTunnel以其强大的数据同步和集成性能在数千家企业的大数据处理中作为重要的一环发挥着不可替代的作用。典型的用户包括美国醉的商业银行摩根大通银行和哔哩哔哩两者分别利用Apache SeaTunnel高效解决了跨云数据准备和异构数据实时数据同步的巨大挑战。
白鲸开源DataOps实践
白鲸开源科技是DataOps领域的领先实践者提供开源解决方案和商业产品为企业数据打造全流程DataOps闭环。 稳定高效的企业级dDataOps平台——WhaleStudio
WhaleStudio基于Apache DolphinScheduler和Apache SeaTunnel是一个分布式、云原生并带有强大可视化界面的 DataOps系统增加了商业客户所需的企业级特性
完全自主研发上下游生态圈广阔支持 160 种数据源全面支持云原生—云、仓、湖 实时/离线批流一体化任务管控低代码实现企业大数据的操作系统和高速公路完善的DataOps流程可无缝集成代码工具丰富的数据源对接和传统ETL数据组件支持一站式完成从开发-》测试-》上线-》的运维闭环 WhaleStudio技术架构
工作流编排能力
WhaleStudio具有强大的工作流编排能力
支持各类计算任务组件Amazon DMS、Azure DatafactoryAmazon Datasync、Apache LinkisDataXSqoopSeaTunnel等支持各类云数据库和计算架构支持 K8S、MLDB。平台采用插件式设计支持自由扩展数据源支持。可视化的数据源管理数据源统一集中管理一次配置到处使用大大减少配置修改带来的工作量。
支持160种数据源接口多种数据集成方式
支持160种数据源
WhaleTunnel支持160种数据源例如MySQLSAP HanaOracleDB2SQLServerGbaseKafkaClickHouseRedShift、达梦等。平台采用插件式设计支持自由扩展数据源。
支持多种数据同步方式 批量数据全量、增量集成实时数据集成批量无主键增量集成等 支持商业数据库实时CDC Mysql PostGreSQL SQLServer Oracle DB2 AWS Aurora 翰高 StarRocks 达梦 人大金仓 PolarDB 实时数据同步支持DDL变更触发暂停、报警以及延迟告警
实时数据处理支持多种实时数据监测处理
DDL变更暂停DDL变更告警DDL暂停加表DDL手工处理
支持多种方式控制监测速率
数据采集速率控制并发控制数据延迟告警数据全量完成告警数据CDC增量启动告警 数据开发能力-在线IDE集成实现DataOps 数据质量把控–数据工作流血缘关系
全局跨工作流的任务和及实例间的依赖关系结合任务与表定义实现表及血缘分析以及任务操作支持实例级别的依赖链路展示支持全局视图进行停止、暂停、重跑、依赖链重跑等操作 智能基线–提前预知任务延迟从而提前采取行动
配置智能基线帮助“智能”告警 ✅定义核心任务基线多一双“智能”的眼镜 ✅根据任务的执行历史只能推算时长 ✅设置安全预警时间智能告警 多种运维管理手段帮助运维人员快速处理故障
任务上线之后面对各种突发情况有多种手段来确保在任务发生异常时可以协助运维人员快速处理异常。 实践案例分析
中信建投DataOps布局
在经过对比调研后中信建投采用了WhaleStudio平台来解决当时在谁开发中存在的挑战。 通过WhaleStudio平台中信建投实现了数据一体化编辑、上线和管控极大提升了数据研发效率。 工作流编排定义超过3000个工作流上线任务数量接近16000个。核心应用应用于反洗钱、实时盈亏计算、监管报送、数据精算等核心业务。效率提升日均运行工作流实例超过5000个日均任务执行数量超过20000个。
目前公司各业务线数据处理任务还在持续上线DataOps平台整个平台规模还在持续增长中。
DataOps未来
DataOps的未来将由AI技术进一步推动实现更智能化的数据处理、数据安全保护和跨平台/云数据治理。
大模型在数据处理流程中可以扮演多种角色提高整个数据处理流程的效率和智能化水平。大模型将应用于以下方面
智能调度策略
数据处理涉及复杂的任务调度大模型可以分析历史作业执行情况、资源使用状况从而预测未来的工作流需求智能地调度任务和分配资源。减少延迟提高整体处理速度并优化资源利用率。
数据质量检测与清洗
在数据同步过程中大模型可以辅助自动检测数据质量问题比如识别异常值、缺失数据或不一致性。通过机器学习算法模型可以学习数据特征自动清洗和修正数据确保数据同步后的质量。
智能数据分类与标签
对于需要分类或标签化的数据大模型可以自动分析数据内容对其进行分类或附加有意义的标签特别是在多模态数据处理场景下这对于后续的数据分析和应用至关重要。
自适应数据同步策略
根据网络状况、数据变化频率和业务需求大模型可以帮助动态调整数据同步策略比如选择最合适的同步频率、确定优先级高的数据流以优化同步效率和减少带宽消耗。
自动化异常处理
在数据传输或处理过程中遇到异常时大模型可以基于历史数据和模式识别自动识别异常原因并触发相应的处理机制减少人工干预提高处理效率。
结语
DataOps不仅是一种技术实践更是一种文化和思维方式。随着AI技术的不断进步DataOps将继续推动企业数据管理和AI模型开发的创新和发展。
相关资源
白鲸开源官网https://www.whaleops.comApache Dolphin Scheduler官网https://dolphinscheduler.apache.orgApache SeaTunnel官网https://seatunnel.apache.org
作者介绍
代立冬
白鲸开源科技联合创始人Apache 孵化器导师Apache DolphinScheduler PMC ChairApache SeaTunnel PMCApacheCon 亚洲大数据湖仓论坛出品人中国科协 “2023开源创新榜” 优秀人物 本文由 白鲸开源科技 提供发布支持