设计规范网站,西安网站设计哪家好,wordpress静态文件目录,企业型网站建设昇腾推理引擎 MindIE
本文将介绍华为昇腾推理引擎 MindIE 的详细内容#xff0c;包括其基本介绍、关键功能特性以及不同组件的详细描述。
本文内容将深入探讨 MindIE 的三个主要组件#xff1a;MindIE-Service、MindIE-Torch 和 MindIE-RT#xff0c;以及它们在服务化部署…昇腾推理引擎 MindIE
本文将介绍华为昇腾推理引擎 MindIE 的详细内容包括其基本介绍、关键功能特性以及不同组件的详细描述。
本文内容将深入探讨 MindIE 的三个主要组件MindIE-Service、MindIE-Torch 和 MindIE-RT以及它们在服务化部署、大模型推理和推理运行时方面的功能特性和应用场景。通过本节的介绍读者将对 MindIE 有一个全面的了解包括其如何支持 AI 业务的高效运行和模型的快速部署。
MindIE 基本介绍
MindIEMind Inference Engine昇腾推理引擎是华为昇腾针对 AI 全场景业务的推理加速套件。通过分层开放 AI 能力支撑用户多样化的 AI 业务需求使能百模千态释放昇腾硬件设备算力。支持多种主流 AI 框架提供多层次编程接口帮助用户快速构建基于昇腾平台的推理业务。
业界标准 RPC 接口高效对接业务层支持 Triton 和 TGI 等主流推理服务框架实现小时级应用部署。提供针对 LLMtransformer和文生图SD 模型的加速参考代码和预置模型开箱性能业界领先。少量代码实现训练向推理平滑迁移昇腾训推同构小时级模型迁移以及 GPU 模型向昇腾 2 人周高效迁移。
昇腾推理引擎支持请求并发调度和模型多实例并发调度支持多种异步下发多流水执行实现高效的推理加速。支持从 PyTorch 和昇思对接从训练模型转换推理模型的过程支持多种推理服务框架和兼容接口。提供基于昇腾架构亲和加速技术覆盖推理全流程的图转换、组网、编译、推理执行、调试调优接口。
已发布 MindIE Service、MindIE Torch、MindIE RT 三个组件。
MindIE-Service
MindIE-Service 针对通用模型的推理服务化场景实现开放、可扩展的推理服务化平台架构支持对接业界主流推理框架接口满足大语言模型、文生图等多类型模型的高性能推理需求。
MindIE-Server 作为推理服务端提供模型服务化能力MindIE-Client 提供服务客户端标准 API简化用户服务调用。MindIE-Service 向下调用了 MindIE-LLM 组件能力。
MindIE-Torch
MindIE-Torch 是针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C/Python 接口少量代码即可完成模型迁移实现高性能推理。MindIE-Torch 向下调用了 MindIE-RT 组件能力。
MindIE-RT
MindIE-RT 是面向昇腾 AI 处理器的推理加速引擎提供模型推理迁移相关开发接口及工具能够将不同的 AI 框架PyTorch、ONNX 等上完成训练的算法模型统一为计算图表示具备多粒度模型优化、整图下发以及推理部署等功能。集成 Transfomer 高性能算子加速库 ATB提供基础高性能算子和高效的算子组合技术Graph便于模型加速。
关键功能特性
服务化部署
MindIE-Service 是面向通用模型的推理服务化场景实现开放、可扩展的推理服务化平台架构支持对接业界主流推理框架接口满足大语言模型、文生图等多类型模型的高性能推理需求。它的组件包括 MindIE-Server、MindIE-Client、Benchmark 评测工具等一方面通过对接昇腾的推理加速引擎带来大模型在昇腾环境中的性能提升另一方面通过接入现有的主流推理框架生态逐渐以性能和易用性牵引存量生态的用户向全自研推理服务化平台迁移。
支持的特性 支持大模型服务化快速部署。 提供了标准的昇腾服务化接口兼容 Triton/OpenAI/TGI/vLLM 等第三方框架接口。 支持 Continuous BatchingPagedAttention。 支持基于 Transformer 推理加速库Ascend Transformer Boost的模型接入继承其加速能力包括融合加速算子、量化等特性。
大模型推理
提供大模型推理能力支持大模型业务全流程逐级能力开放使能大模型客户需求定制化。
Pytorch 模型迁移
对接主流 Pytorch 框架实现训练到推理的平滑迁移提供通用的图优化并行推理能力提供用户深度定制优化能力。MindIE-Torch 是推理引擎组件中针对 Pytorch 框架模型的推理加速插件。Pytorch 框架上训练的模型利用 MindIE-Torch 提供的简易 C/Python 接口少量代码即可完成模型迁移实现高性能推理。
MindIE-Torch TorchScript 支持以下功能特性 支持 TorchScript 模型的编译优化生成可直接在昇腾 NPU 设备加速推理的 TorchScript 模型。 支持静态输入和动态输入动态输入分为动态 Dims 和 ShapeRange 两种模式。 编译优化时支持混合精度、FP32 以及 FP16 精度策略。 支持用户自定义 converter 和自定义 pass。 支持异步推理和异步数据拷贝。 支持与 torch_npu 配套使用算子可 fallback 到 torch_npu 执行。 支持多语言 APIC、Python。
MindIE-Torch ExportedProgram 支持以下功能特性 支持 ExportedProgram 的编译优化生成可直接在昇腾 NPU 设备加速推理的 nn.Module 模型。 支持静态输入和动态 ShapeRange 输入。 编译优化时支持混合精度、FP32、FP16 精度策略。 支持异步推理和异步数据拷贝。 支持 Python API。
推理运行时
集成推理应用接口及 Transformer 加速库提供推理迁移相关开发接口及工具提供通用优化及并行推理能力》。MindIE-RTMind Inference Engine RT昇腾推理引擎运行时是针对昇腾 AI 处理器的推理加速引擎提供 AI 模型推理场景下的商业化部署能力能够将不同的 AI 框架上完成训练的算法模型统一为计算图表示具备多粒度模型优化、整图下发以及推理部署等功能。
MindIE-RT 集成昇腾高性能算子加速库 ATB为实现基于 Transformer 的神经网络推理加速引擎库库中包含了各类 Transformer 类模型的高度优化模块如 Encoder 和 Decoder 部分。
MindIE-RT 专注于为用户提供快速迁移、稳定精度以及极致性能的推理服务让用户能够脱离底层硬件细节和不同平台框架的差异专注于推理业务本身实现高效的模型部署开发。并且专门针对大模型下的 Transformer 架构提高 Transformer 模型性能提供了基础的高性能的算子高效的算子组合技术Graph方便模型加速。目前 MindIE-RT 已实现动态输入推理解析框架模型等功能特性。
MindIE-RT 支持以下功能特性 支持多语言 APIC, Python详情参见 C编程模型和 Python 编程模型。 提供 parser支持直接导入 AI 框架 ONNX 模型详情参见解析框架模型。 支持 Transformer 算子加速库集成基础高性能算子详情可见 ATB 高性能加速库使用。 支持丰富的编译时优化方法和运行时优化方法用户可以在昇腾 AI 处理器上占用较少的内存部署更高性能的推理业务提供的优化方法如精度优化和常量折叠。
应用场景
MindIE-RT 是基于昇腾 AI 处理器的部署推理引擎适用于通过 NPU、GPU、CPU 等设备训练的算法模型为其提供极简易用且灵活的接口实现算法从训练到推理的快速迁移。目前 MindIE-RT 的快速迁移能力已支持以下业务场景 计算机视觉。 自然语言处理。 推荐、检索。 大模型对话。
如果您想了解更多AI知识与AI专业人士交流请立即访问昇腾社区官方网站https://www.hiascend.com/或者深入研读《AI系统原理与架构》一书这里汇聚了海量的AI学习资源和实践课程为您的AI技术成长提供强劲动力。不仅如此您还有机会投身于全国昇腾AI创新大赛和昇腾AI开发者创享日等盛事发现AI世界的无限奥秘~