温州网站制作案例,自然堂网站建设情况,seo技术有哪些,网站推广是什么岗位flink中主要有两个进程#xff0c;分别是JobMManager和TaskManager#xff0c;当然了根据flink的部署和运行环境不同#xff0c;会有一些不同#xff0c;但是主要的功能是类似的#xff0c;下面我会讲下聊下#xff0c;公司用的多的部署方式#xff0c;基于yarn集群的部… flink中主要有两个进程分别是JobMManager和TaskManager当然了根据flink的部署和运行环境不同会有一些不同但是主要的功能是类似的下面我会讲下聊下公司用的多的部署方式基于yarn集群的部署 01. JobManager
job任务的拆解资源的调度checkpoints的生成
02. TaskManager
根据JobManager给的具体task任务启动线程去执行
03. Flink中相关概念的含义 flink中任务跑起来之后会有这些名字需要弄清楚并行度分区算子链taskslottasksubTask Task: 相当于Spark中的Stage一个job中根据是否发生分区的变化主要是指产生shuffle的操作上游分区的数据会分成若干份被拉去到下游的不同分区把job切分成不同的Task 算子链 算子链由若干个能划分成一个Task的算子组成 TaskSlot TaskSlot代表可以运行Task的一组资源槽分布在各个TaskManager进程中 并行度分区SubTask 并行度分区和SubTask在flink中都表示相近的意思都代表当下task的并发程度也可以看作是一个运行线程 其中需要的几点如下其中一点是Flink任务TaskSlot的数量要大于等于这个job中各算子并行度最大的那个算子的并行度否则任务跑不起来还有一点是各个Task需要运行在一个TaskSlot比如一个job有3个Task那这三个Task就应该被分配到同一个slot中运行这样做的目的是为了减少各个Task之间数据交换的成本如下图所示
04. Flink on yarn的运行原理 flink on yanr是大多数公司选择的一种运行方式它的优势主要是借助yarn的资源管理能力通过yarn能更灵活把控flink job进行资源利用同时也大大的减轻了公司大数据组件的维护压力如下是on yarn的运行流程 任务提交之后yanr会把我们提交的jar包已经运行的所需的jar包都放到hdfs的中同时client会和ResourceManager通信RM会在对应的NodeManager中启动一个ApplicationMaster进程来运行我们提交的主jar包上的main方法构建任务的运行环境上步骤中的APPMaster其实就是JobManager的功能它会吧job的task分割好然后再回到RM中申请对应的资源运行TaskRM接收到请求之后然后根据配置会启动对应的TaskManager在每个TaskManager中启动相应的TaskSlot对应的资源都准备好之后TaskManager会去下载对应Task运行时需要的jar包来构建运行环境环境构建之后每个slot就运行分配给自己的任务在这期间会和JobManager进行通信共同完成job的任务