建立团购网站,泰州手机网站制作,centos wordpress 建站教程,素材天下本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言
使用ADB 或者数据湖#xff0c;基本上绕不开一个架构“Medallion”#xff0c; 它使得数据管理更为简单有效。ADB 通过… 本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (11) – UC搭建 前言
使用ADB 或者数据湖基本上绕不开一个架构“Medallion” 它使得数据管理更为简单有效。ADB 通过把数据分为“金”“银”“铜” 三层来实现Medallion架构。同时搭配UC使得medallion更加健壮安全和合规。
除了Medallion 还有一些概念如data warehouse, data lake, 和data lakehouse。
Data lake 是一个中央存储库以原始格式存储任意规模的结构化和非结构化数据。与传统存储相比这样可以减少很多前期转换开销。其核心优势之一就是灵活性另外还有对大量大数据处理工具的支持。Data lakehouse跟data lake的名字非常相似在data lake中的数据在展现给最终用户前通常都需要进行处理。 但是data lake的目标是存储而非处理。data warehouse可以提供处理但需要预先范式化、模式化再存储同时存储的量一般有限。基于这两种不足最好的办法就是优势整合保留data lake的强大存储功能和data warehouse的数据处理功能从而出现了data lakehouse。ETL/ELT两者区别在于先转换然后存储TL还是先存储再转换LT。ETL 往往需要先转换成预定格式再存储随着数据集成过程的量和速度要求在大数据领域ETL非常容易出现性能瓶颈且费用昂贵。而ELT如果搭配lakehouse则可以很好地平衡性能与开销。
问题
上面提到了lakehouse和ELT 的好处但是这更多集中于收集和存储那么如何管理和组织数据呢
传统的数据仓库环境数据通过下图的流程完整数据准备。 在datalake中数据以原始格式存储但是实际上你需要对数据进行使用而不是简单存储。这种几乎随意式的直接存储很难马上用于数据使用主要是分析因此还是需要进行清晰clean转换transform。
由于量大分析复杂传统的数据仓库处理方式如果直接应用在data lake上会导致如时间久资源消耗大数据组织困难导致结果不准确等情况。这时候Medallion 架构就应运而生。
它为湖仓一体化而定制。主要目标是在从源到最终使用的过程中逐步增加结构和数据质量。
ADB Medallion
下图是来自于Databricks官网的架构图Medallion的核心在于3个层layerBronzeSilver Gold 也就是铜、银、金。 Medallion就是奖牌的意思。
Bronze 铜
Bronze 层充当外部源系统的数据的初始登陆点。这层的数据反映了原始状态的源系统结构并带有元数据信息如加载日期/时间和进程 ID。这层的管理重点是变更数据捕获支持源数据的历史存档维护数据血缘还有审计跟踪并允许在必要时进行重新处理而无需从源系统重新读取。
Silver 银
下一层是 Silver 层。在这层中来自 Bronze 层的数据经过一系列作达到 一种叫做“Just-enough” 状态。提供包含基本业务实体、概念和事务的 “企业视图”。
Gold 金
最后一层是 Gold 层。Gold 层中的数据通常被结构化到特定于主题领域的数据库中以供使用。此层专用于报告并采用非规范化、读取优化的数据模型具有最少的联接。它是应用数据转换和质量规则的最终阶段。
在这三层里面 铜是原始存储外加元数据信息金是最终用于展示的数据集跟传统的数据仓库类似。重点在于银这一层。
这一层是转换后的数据 它存储了不同源系统数据转换成统一视图后的结果。但是之所以叫做“Just-enough”是因为它又并不完全转换而是最小转换包含
数据清洗是识别和纠正数据集中的错误、不一致和不准确之处以提高其分析和可靠性的过程。这是数据准备过程中的关键步骤通常在数据分析或集成之前执行。涉及的一些常见任务包括删除重复项、更正拼写错误、标准化数据格式尤其是日期和地址、处理缺失值等。数据验证数据验证是通过各种验证技术确保数据准确、一致和可靠的过程。它通常包括根据已知的质量控制措施验证数据、确认数据符合公司数据治理策略、通过交叉引用不同的数据源或应用业务规则和逻辑来解决不一致问题、标准化和规范化数据以及处理异常值。数据合规数据合规是指确保数据符合特定标准、格式或要求的过程。它涉及转换和标准化数据以使其与特定数据模型、架构或系统保持一致和兼容。有目的地进行数据匹配为了提供统一的企业视图来自不同来源的数据最终必须进行整合和集成。为了使数据可整合您必须将来自不同来源的数据汇集在一起识别和确定不同数据集或来源的记录之间的关系并将它们转换为一致且连贯的格式。
通过这些处理之后 silver中的数据已经变得有意义且可用于后续整合。但是一般来说数据后进一步处理就不需要在这一层进行了否则会出现过度预处理最终使其成为了gold层。
Medallion 是一个设计模式而不是数据模型也就是说它更多是一个指引然后在特定环境中这主要指云环境按需实现。比如用ADBADLS 来实现。
小结
介绍了什么是Medallion之后接下来将使用ADB 来实现它。