哪里网站可以做微信头像,WordPress怎么加入用户关注,扶风做网站,云南企业网站建设注#xff1a;本篇文章阐述的是StarRocks-3.2版本的Broker Load导入机制
一、概述 Broker Load导入方式支持从HDFS类的外部存储系统#xff08;例如#xff1a;HDFS、阿里OSS、腾讯COS、华为云OBS等#xff09;#xff0c;支持Parquet、ORC、CSV、及 JSON 四种文件格式本篇文章阐述的是StarRocks-3.2版本的Broker Load导入机制
一、概述 Broker Load导入方式支持从HDFS类的外部存储系统例如HDFS、阿里OSS、腾讯COS、华为云OBS等支持Parquet、ORC、CSV、及 JSON 四种文件格式且适用于数据文件数量较多且单个文件的大小超过10GB场景的异步导入方式。Broker Load 是一种基于 MySQL 协议的异步导入方式提交导入作业以后StarRocks 会异步地执行导入作业。 这种导入方式需要借助Broker组件来协助进行Broker Load。 Broker是StarRocks集群中一种可选进程主要用于支持 StarRocks读写远端存储上的文件和目录。Broker是一个独立的无状态进程封装了文件系统接口为StarRocks提供读取远端存储系统中文件的能力。通过部署的Broker程序StarRocks可读取数据源上的数据利用自身的计算资源对数据进行预处理和导入。 Broker 仅作为一个数据通路并不参与任何计算因此仅需占用较少的内存。通常一个 StarRocks系统中会部署一个或多个 Broker 进程。 官网文档关于Broker Load的介绍地址为
BROKER LOAD | StarRocks
从本地文件系统导入 | StarRocks Broker的介绍
Broker - Apache Doris
二、Broker Load原理
2.1 流程图 2.2 流程详解
1用户在客户端创建broker load任务。 2fe在接收到用户的创建请求后会根据请求导入的源文件的数据量和文件数量以及be的数量生成plan并将plan分发到多个be节点上每个be会负责一定数据量的导入任务。 3对应的be在接收到导入任务时会通过broker进程去远端存储系统上拉去相应的数据到对应的be上在对数据 transform之后将数据导入StarRocks系统。 4所有be均完成导入由fe最终决定导入是否成功并返回最终结果给用户
2.3 注意事项
1最好是每个be节点上创建一个broker进程同时broker进程的名称保持一致用户在发起导入任务的时候可以尽可能的保证所有的broker进程和对应的be节点参与到导入任务中来最大化的提高导入性能。
2源文件不建议是数量较多的碎片化小文件同时也不建议是数据量比较大的数量较少的文件个数可以酌情把小文件合并或者大文件拆分成数量为be倍数的个数单个文件大概在几十到百GB 级别大小的文件。
2.4 应用案例 Broker Load导入案例见文章
第3.7章StarRocks数据导入--Broker Load_starrocks broker load-CSDN博客 psBroker Load支持在导入过程中进行字段顺序调整或者进行简单的数据转换的处理逻辑“顺序占位取值”和“名称匹配数据”该逻辑贯穿整个StarRocks的导入操作中核心的Stream Load等导入方式也是基于这种处理逻辑 参考文章
第3.7章StarRocks数据导入--Broker Load_starrocks broker load-CSDN博客
Broker Load - Apache Doris