万家建设有限公司网站,网站模板 html5,广东哪里网站建设,软件开发应该学什么专业全域数据集成平台ETL
Restcloud 工作原理
RestCloud数据集成平台采用SpringCloud微服务架构技术开发#xff0c;底层基于纯Java语言采用前后端分离架构#xff0c;前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流工作流引擎的架构进行研发的#xff0c;底…全域数据集成平台ETL
Restcloud 工作原理
RestCloud数据集成平台采用SpringCloud微服务架构技术开发底层基于纯Java语言采用前后端分离架构前端采用React技术进行开发。 RestCloud数据集成平台是基于数据流工作流引擎的架构进行研发的底层设计了一个专门为数据处理任务流而研发的工作流引擎用以支撑任意复杂的数据流处理包括串行、同步并行、异步并行、同步子流程、异步子流程、事务控制、循环任务执行、多流合并、数据折分、数据流复制等而不是基于DAG这种简单的有向无环图的数据流程处理逻辑得益于我们在工作流上面积累的优势我们不但可以做DAG这种简单的依赖任务处理还可以做复杂的多层任务调度能力企业可以把数据处理任务分为原子层、逻辑组合层、调度层等方式来组合企业的复杂任务调度需求可以把一个复杂的数据集成流程拆分成多个可复用的子任务来进行调度。
在RestCloud数据集成平台中数据作为流在多个节点中进行流动、数据可以穿透多个节点以及子任务这样数据流可以被多个节点以及任务中被访问到以实现数据复用和分发。 为了保障系统的任务调度的稳定性我们做了大量的工作以及尝试目前在产品中已经支持了多种调度模式包括队列模式、主备模式、调度机模式等等目的都是为了保障任务能够被准时执行同时在任务失败时提供了自动重跑、断点重跑、重跑指定节点、重跑所有下游节点的能力。 ETL数据同步CDC实时数据集成操作手册
1.创建数据源 2.选择新建数据源 3.创建离线数据集成 4.新建应用 5.新建流程进行流程设计 6.新建流程步骤 7.同步到Doris的离线流程设计 8.实时输入流配置 9.实时输入流字段来源 10.字段映射配置 11.字段映射一一对应 12.数据过滤器配置 13.数据过滤器的过滤条件 14.Doris快速输出配置 15.Doris快速输出字段需要重新读取 16.配置实时数据集成 17.新建监听器 18.监听器配置 19.接收端配置 20.开启全量增量/增量模式 21.一个监听器监听多张表配置
现场的ETL工具是否使用监听多表视情况而定
由于目前社区版是有限制的流程数量监听器数量30,如果单独使用一张表一个监听器一个流程就是资源浪费
看现场具体情况如果一些不是经常操作新增修改删除的表可以将这些表放到同一个流程里面只需要一个监听器一个流程就可以达到效果
当一个流程内表的操作比较频繁可能会造成数据堵塞状态一直处于运行中丢失数据可以在流程上方的流程属性中增加并发数注意并发数不能过多消耗CPU
创建多表离线流程 配置开始处的分支流程线 新建多表监听器