商务网站建设考试,无锡军自考网站建设,网站建设的实训周,Wordpress禁止访问仪表盘本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (16) – Delta Lake 和 ADLS整合 前言
前面介绍了Delta Table#xff0c;但是Databricks又推出了“Delta Live Tables#xff08;DLTs… 本文属于【Azure 架构师学习笔记】系列。 本文属于【Azure Databricks】系列。 接上文 【Azure 架构师学习笔记】- Azure Databricks (16) – Delta Lake 和 ADLS整合 前言
前面介绍了Delta Table但是Databricks又推出了“Delta Live TablesDLTs”这两者名字太像了以至于很容易混淆。
Delta Table是一个存储数据到表里面的方式。而DLTs可以用于通过声明式定义来描述在这些表之间的数据流。 也就是说DLTs是一个通过创建和保持数据更新用于管理很多delta table的声明式框架。 Delta Table数据格式。 Delta Live Tables数据管道框架data pipeline framework
DLTs的好处
Pipeline 可视化
DLTs 使用有向无环图战士所有数据PLpipeline的负载对于非常复杂的PL而言非常有用。同时还可以看到数据是如何从bronze流到最终的gold层。在UC里面也可以通过data lineage数据学院来实现但是对于那些还没有启用UC 的项目而言这是一个替代方案。 CDC 和性能优化
当你的PL 有大量的增删改操作时CDC能够非常明显地提升速度特别是对于SCD Type1 到Type2也就是在lakehouse中可以保留数据的历史。同时通过默认的delta 格式自动压缩从而极大地提高性能。这种自动压缩式通过把小文件合并来减少parquet对小文件处理性能差的问题。
易用
由于图形化界面使得debug的时候相比于使用Python等语言更加容易实现。
ACID
DTLs搭建在Delta table之上使用Delta格式前文已经提及过Delta table具有ACID特性能够保证数据的一致性和数据质量。所以DLT自然也具有ACID 。
DLTs的注意事项
这里称为注意事项而不是缺点因为也许它们并不是真正的不好的东西而是需要评估是否有问题或者只是一种当前的技术限制。
数据体量虽然lakehouse可以处理大体量的数据但是集群一旦要处理很大量的数据对单个集群来说是一个负担哪怕你的集群不停增加节点 成本也会很高。建议对数据源进行预处理如分区拆分批处理使得每个批处理相对较小外部系统的集成 DLT的设计中间在于批处理数据集成对于流式计算通常需要额外的基础架构如Kafka等。版本控制和回滚虽然Delta有time travl能力但是真要回滚的时候从状态管理和部分回滚方面都并不是简单的事。
DLTs和Delta Tables 对比 小结
简单来说DLT不是简单的“table”而是一个ETL 过程。接下来的几篇将会演示一些使用。