php 企业网站开发教程,linux 搭建网站服务器,建设银行网上流览网站,建设部网站拆除资质大模型的训练和推理需要高性能的算力支持。以ChatGPT为例#xff0c;据估算#xff0c;在训练方面#xff0c;1746亿参数的GPT-3模型大约需要375-625台8卡DGX A100服务器训练10天左右#xff0c;对应A100 GPU数量约3000-5000张。
在推理方面#xff0c;如果以A100 GPU单卡…大模型的训练和推理需要高性能的算力支持。以ChatGPT为例据估算在训练方面1746亿参数的GPT-3模型大约需要375-625台8卡DGX A100服务器训练10天左右对应A100 GPU数量约3000-5000张。
在推理方面如果以A100 GPU单卡单字输出需要350ms为基准计算假设每日访问客户数量高达5,000万人时按单客户每日发问ChatGPT应用10次单次需要50字回答则每日消耗GPU的计算时间将会高达243万个小时对应的GPU需求数量将超过10万个。 大模型的训练和推理依赖通用GPU
算力即计算能力具体指硬件对数据收集、传输、计算和存储的能力算力的大小表明了对数字化信息处理能力的强弱常用计量单位是FLOPSFloating-point operations per second表示每秒浮点运算次数。
当前大模型的训练和推理多采用GPGPU。GPGPU是一种由 GPU 去除图形处理和输出仅保留科学计算、AI训练和推理功能的GPU。GPU芯片最初用于计算机系统图像显示的运算但因其相比于擅长横向计算的CPU更擅长于并行计算在涉及到大量的矩阵或向量计算的AI计算中很有优势GPGPU应运而生。
在这波ChatGPT浪潮中长期押注AI的英伟达可以说受益最多ChatGPT、包括各种大模型的训练和推理基本都采用英伟达的GPU。目前国内多个厂商都在布局GPGPU包括天数智芯、燧原科技、壁仞科技、登临科技等不过当前还较少能够应用于大模型。
事实上业界认为随着模型参数越来越大GPU在提供算力支持上也存在瓶颈。在GPT-2之前的模型时代GPU内存还能满足AI大模型的需求近年来随着Transformer模型的大规模发展和应用模型大小每两年平均增长240倍实际上GPT-3等大模型的参数增长已经超过了GPU内存的增长。传统的设计趋势已经不能适应当前的需求芯片内部、芯片之间或AI加速器之间的通信成为了AI计算的瓶颈。 存算一体技术如何突破算力瓶颈
而存算一体作为一种新型架构形式受到关注存算一体将存储和计算有机结合直接在存储单元中处理数据避免了在存储单元和计算单元之间频繁转移数据减少了不必要的数据搬移造成的开销不仅大幅降低了功耗还可以利用存储单元进行逻辑计算提高算力显著提升计算效率。
大模型的训练和部署不仅对算力提出了高要求对能耗的要求也很高从这个角度来看存算一体降低功耗提升计算效率等特性在大模型方面确实更具优势。
因为独具优势过去几年已经有众多企业进入到存算一体领域包括知存科技、千芯科技、苹芯科技、后摩智能、亿铸科技等。各企业的技术方向也有所不同从介质层面来看有的采用NOR Flash有的采用SRAM也有的采用RRAM。
从目前的情况来看基于NOR Flash的存算一体产品在算力上难以做大应用场景主要是对算力要求不高对功耗要求高的可穿戴设备等领域基于SRAM的存算一体算力可以更大些能够用于自动驾驶领域而真正能够在算力上实现突破可以称之为大算力AI芯片的目前只有亿铸科技主推的基于RRAM的存算一体技术。
在大模型对大算力的需求背景下亿铸科技近期更是提出了存算一体超异构计算。超异构计算能够把更多的异构计算整合重构从而各类型处理器间充分地、灵活地进行数据交互而形成的计算。
简单来说就是结合DSA、GPU、CPU、CIM等多个类型引擎的优势实现性能的飞跃DSA负责相对确定的大计算量的工作GPU负责应用层有一些性能敏感的并且有一定弹性的工作CPU啥都能干负责兜底CIM就是存内计算超异构和普通异构的主要区别就是加入了CIM由此可以实现同等算力更低能耗同等能耗更高算力。另外CIM由于器件的优势能负担比DSA更大的算力。
亿铸科技创始人、董事长兼CEO熊大鹏博士表示,存算一体超异构计算的好处在于一是在系统层,能够把整体的效率做到最优二是在软件层,能够实现跨平台架构统一。
基于存算一体超异构概念亿铸科技提出了自己的技术畅想若能把新型忆阻器技术(RRAM)、存算一体架构、芯粒技术Chiplet、3D封装等技术结合将会实现更大的有效算力、放置更多的参数、实现更高的能效比、更好的软件兼容性、从而突破性能瓶颈抬高AI大算力芯片的发展天花板。 图源亿铸科技
目前国内已公开的能够实现存算一体AI大算力的芯片公司仅有亿铸科技其基于RRAM的存算一体AI大算力芯片将在今年回片。 小结
无论是大模型的训练还是部署对大算力芯片的需求都很大从目前的情况来看大模型的训练在很长时间都将要依赖于英伟达的GPU芯片。
而在大模型的推理部署方面除了GPU,存算一体将是非常合适的选择。未来大模型的部署规模会很大从前不久英伟达专门推出适合大型语言模型部署的芯片平台也能看出来。据亿铸科技透露公司规划的产品在同等功耗下性能将超越英伟达H100系列的推理芯片。