怎么学好网站建设,公司网站建设的不足,新品发布会的目的和意义,初学者求教怎样做网站CANN作为最接近昇腾AI系列硬件产品的一层#xff0c;通过软硬件联合设计#xff0c;打造出适合昇腾AI处理器的软件架构#xff0c;充分使能和释放昇腾硬件的澎湃算力。针对大模型推理场景#xff0c;CANN最新发布的CANN 7.0版本有机整合各内部组件#xff0c;支持大模型的…CANN作为最接近昇腾AI系列硬件产品的一层通过软硬件联合设计打造出适合昇腾AI处理器的软件架构充分使能和释放昇腾硬件的澎湃算力。针对大模型推理场景CANN最新发布的CANN 7.0版本有机整合各内部组件支持大模型的量化压缩、分布式切分编译、分布式加载部署并在基础加速库、图编译优化、模型执行调度等方面针对大模型进行极致性能优化。 自动并行切分实现大模型分布式部署
针对LLM模型巨大的计算和内存开销CANN提供自动并行切分能力实现大模型在昇腾集群的分布式部署。自动并行切分过程可以分为5个步骤 自动切分的策略以物理集群信息和模型结构为输入进行负载切分优化的空间建模通过策略生成-策略应用-性能模拟的多轮迭代进而搜索得到优化的切分部署策略。 KV Cache机制减少重复推理计算
LLM模型推理计算的过程可以分为prompt处理和后续输出token的自回归计
算。前者有大量数据的矩阵乘是典型的计算密集型处理而后者随着LLM的执行会积累越来越多的对话内容基于历史输出计算得到新的token输出。以“盘古是一个语言模型”为例输入内容后每一个token都会生成对应的Q、K和V向量在attention部分进行矩阵乘和softmax等计算。在这个过程中用户prompt加上已经输出的token都要作为下一次迭代的输入都要重新计算相应的QKV这造成了大量的重复计算。
为此业界提出了KV Cache方法将已经出现的token所计算得出的K和V向量保存在内存仅计算最新一个token的QKV再进行矩阵乘和softmax计算本质上是以空间换时间。 目前CANN已经全面支持KV Cache并实现了KV Cache的分布式存储、更新和复位有效加速自回归阶段计算。 量化技术有效降低内存占用
量化是AI领域的常见技术在大模型时代量化还有不同的特点和要求。LLM的权重分布相对均匀而FM数据存在很多离群点。传统量化算法中直接抛弃离群点或将所有离群点纳入量化范围均会导致精度损失为此CANN支持仅Weight量化INT8量化场景相比FP16可降低50%权重内存空间占用。 同时支持KV Cache量化KV Cache本质上是空间换时间随模型层数、sequence length的线性增长KV Cache量化可降低一半存储。 FlashAttention融合算子降低访存开销
LLM模型中大量使用了Multi-Head Atten-tion结构这不仅带来了巨大的计算量保存数据所需的内存容量也是计算系统的关键瓶颈。对此业界提出了FlashAttention融合算子其原理是对attention处理过程进行切分和计算等价使得attention的多个步骤可以在一个算子中完成并且通过多重循环、每次处理一小部分数据以近似流式的方式访问HBM减少了HBM访问的总数据量并能够将计算和数据搬运更好的重叠隐藏。 来源https://arxiv.org/pdf/2205.14135.pdf
CANN针对昇腾AI处理器的HBM和缓存大小以及数据搬运通路优化实现FlashAttention融合算子充分利用片上缓存提升Attention处理性能可达50%。 Auto Batching调度提升算力利用率:
面对input阶段compute-bound、output阶段memory-bound的计算特征以及LLM业务的时延需求CANN支持多个input和output计算集群的异构部署并支持LLM计算任务的auto batching调度提升AI算力利用率。它的原理是将不同的服务请求尽可能地聚合处理在input阶段通过单batch和预置的多种sequence length模型推理尽量降低每个请求的启动开销在output阶段以iteration粒度调度多个服务尽可能拼成batch处理以提升计算密度平衡计算和访存。 支持Torch.Compile计算图提高编程效率
为了使开发者能够更简单的将LLM在昇腾平台运行推理CANN实现了PyTorch的计算图支持。开发者只需要使用PyTorch原生的torch.-compile接口CANN使能的NPU后端就会对PyTorch生成的FX Graph进行接管基于trace逻辑将AtenIR转换为AIR再进行端到端的图编译深度优化从而降低推理阶段的内存需求、提升计算性能同时最大程度的减少开发者的修改工作。 来源https://pytorch.org/get-started/pytorch-2.0/
这里有一个CANN大模型推理上手的示例。在编译阶段使用ATC工具对pb或onnx模型进行编译命令参数与CV等经典AI模型类似只是增加了集群信息和切分信息的输入。打开集群开关以及并行切分开关同时传入集群配置文件和切分方式的配置文件ATC就会在编译过程中自动实现模型的切分和通信算子插入。
atc --model./matmul2.pb
--soc_versionAscend910
--outputtest910_parallel
--distributed_cluster_build1
--cluster_config./numa_config_910_2p.json
--enable_graph_parallel1
--graph_parallel_option_path./parallel_option.json 在执行阶段通过LoadGraph接口载入om离线模型CANN会将各个模型切片载入到相应的昇腾AI处理器device上然后再使用既有的RunGraph接口即可执行推理。
经过计算/通信并行、图优化、算子调优等优化LLAMA 65B推理性能可较优化前提升一倍以上端到端耗时可以达到8s左右仍有提升空间。 总而言之在大模型技术日新月异不断迭代的时代背景下昇腾CANN将会持续深耕大模型优化加速技术比如继续探索面向在线服务的调度优化缩短服务时延基于计算图的weight预取与Cache驻留优化提升访存性能亲和FlashAttention业界最新融合算子提升计算性能支持更丰富的量化计算组合、模型稀疏降低内存占用...随着大模型规模化商业落地以昇腾CANN为核心的昇腾AI基础软硬件平台将持续提升大模型推理部署场景的核心竞争力为客户提供最优选择