瑞安市网站建设,网站负责人备案采集照具体要求,做营养的网站,wordpress 4.6 中文Flash Attention是将Q划分到所有SM block上。每个SM block上的Q#xff0c;负责和所有K和所有V进行计算#xff0c;得到对应的结果。期间#xff0c;SM block彼此之间#xff0c;不需要通信。 在prefill阶段#xff0c;seqLength*batchSize*Heads足够多#xff0c;所以每…Flash Attention是将Q划分到所有SM block上。每个SM block上的Q负责和所有K和所有V进行计算得到对应的结果。期间SM block彼此之间不需要通信。 在prefill阶段seqLength*batchSize*Heads足够多所以每个SM block上有足够多的Query。
但是在decoding阶段因为Query的seqLength1且batchSize1因此SM block数目无法都利用上。
解决方法
将K和V均分成几份划分给SM block。缺点最后需要将不同SM block上的中间结果进行通信进行归一化的softmax和结果Reduce。 动图
大模型推理加速之Flash Decoding更小子任务提升并行度 - 知乎