建设一个域名抢注的网站,怎么做局域网asp网站,wordpress必须登录,360免费建站Nvidia在计算、网络和图形领域独树一帜#xff0c;其显著优势在于雄厚的资金实力及在生成式人工智能市场的领先地位。凭借卓越的架构、工程和供应链#xff0c;Nvidia能够自由实施创新路线图#xff0c;引领行业未来。 到 21 世纪#xff0c;Nvidia 已经是一个非常成功的创…nbsp; nbsp; Nvidia在计算、网络和图形领域独树一帜其显著优势在于雄厚的资金实力及在生成式人工智能市场的领先地位。凭借卓越的架构、工程和供应链Nvidia能够自由实施创新路线图引领行业未来。 到 21 世纪Nvidia 已经是一个非常成功的创新者它实际上没有必要扩展到数据中心计算领域。但 HPC 研究人员将 Nvidia 带入了加速计算领域然后 AI 研究人员利用 GPU 计算创造了一个全新的市场这个市场已经等待了四十年希望以合理的价格实现大量计算并与大量数据碰撞真正让越来越像思考机器的东西成为现实。向 Danny Hillis、Marvin Minksy 和 Sheryl Handler 致敬他们在 20 世纪 80 年代尝试制造这样的机器当时他们创立了 Thinking Machines 来推动 AI 处理而不是传统的 HPC 模拟和建模应用程序以及nbsp;Yann LeCun他当时在 ATT 贝尔实验室创建了卷积神经网络。他们既没有数据也没有计算能力来制造我们现在所知道的 AI。当时Jensen Huang 是 LSI Logic 的董事该公司生产存储芯片后来成为 AMD 的 CPU 设计师。就在 Thinking Machines 在 20 世纪 90 年代初陷入困境并最终破产时黄仁勋在圣何塞东侧的 Dennys 与 Chris Malachowsky 和Curtis Priem 会面他们创立了 Nvidia。正是 Nvidia 看到了来自研究和超大规模社区的新兴人工智能机遇并开始构建系统软件和底层大规模并行硬件以实现自第一天起就一直是计算一部分的人工智能革命梦想。
这一直是计算的最终状态也是我们一直在走向的奇点——或者可能是两极。如果其他星球上有生命那么生命总会进化到这样一个地步那个世界拥有大规模毁灭性武器并且总会创造出人工智能。而且很可能是在同一时间。
在那一刻之后那个世界对这两种技术的处理方式决定了它能否在大规模灭绝事件中幸存下来。这听起来可能不像是讨论芯片制造商发展路线图的正常开场白。事实并非如此因为我们生活在一个有趣的时代。在台北举行的年度nbsp;Computexnbsp;贸易展上Nvidia 的联合创始人兼首席执行官在主题演讲中再次试图将生成式人工智能革命他称之为第二次工业革命置于其背景中并一窥人工智能的未来尤其是 Nvidia 硬件的未来。
我们获得了 GPU 和互连路线图的预览据我们所知这是直到最后一刻才列入计划的一部分黄仁勋和他的主题演讲通常都是这样。
革命不可避免
生成式人工智能的关键在于规模黄仁勋提醒我们这一点并指出 2022 年底的 ChatGPT 时刻之所以会发生只有出于技术和经济原因。要实现 ChatGPT 的突破需要大幅提高 GPU 的性能然后在此基础上增加大量 GPU。Nvidia 确实实现了性能这对于 AI 训练和推理都很重要而且重要的是它大大减少了生成大型语言模型响应中的 token 所需的能量。请看一看从“Pascal” P100 GPU 一代到“Blackwell” B100 GPU 一代八年间 GPU 的性能提升了 1053 倍后者将于今年晚些时候开始出货并将持续到 2025 年。我们知道图表上说的是 1000 倍但这并不准确。部分性能是通过降低浮点精度来实现的——降低了 4 倍从 Pascal P100、Volta V100 和 Ampere A100 GPU 中的 FP16 格式转变为 Blackwell B100s 中使用的 FP4 格式。如果没有这种精度的降低性能提升将只有 263 倍而这不会对 LLM 性能造成太大影响——这要归功于数据格式、软件处理和硬件中的大量数学魔法。请注意对于 CPU 市场的八年来说这已经相当不错了每个时钟的核心性能提高 10% 到 15%核心数量增加 25% 到 30% 都是正常的。如果升级周期为两年那么在同样的八年里CPU 吞吐量将增加 4 到 5 倍。如上所示每单位工作量的功耗降低是一个关键指标因为如果你无法为系统供电你就无法使用它。令牌的能源成本必须降低这意味着 LLM 产生的每令牌能源的降低速度必须快于性能的提高。在他的主题演讲中为了给你提供更深入的背景知识在 Pascal P100 GPU 上生成一个 token 需要 17000 焦耳的能量这大致相当于点亮两个灯泡两天平均每个单词需要大约三个 token。所以如果你要生成很多单词那就需要很多灯泡现在你开始明白为什么八年前甚至不可能以能够使其在任务上表现良好的规模运行 LLM。看看在 1.8 万亿个参数 8 万亿个 token 数据驱动模型的情况下训练 GPT-4 专家混合模型 LLM 所需的能力P100 集群的耗电量超过 1000 千兆瓦时这真是太惊人了。黄仁勋解释说借助 Blackwell GPU公司将能够在约 10,000 个 GPU 上用大约 10 天的时间来训练这个 GPT-4 1.8T MoE 模型。如果人工智能研究人员和 Nvidia 没有转向降低精度那么在这八年的时间里性能提升只会是 250 倍。降低能源成本是一回事降低系统成本又是另一回事。在传统摩尔定律的末期两者都是非常困难的技巧因为每 18 到 24 个月晶体管就会缩小一次芯片变得越来越便宜、越来越小。现在计算复合体已经达到光罩极限每个晶体管都变得越来越昂贵——因此由晶体管制成的设备本身也越来越昂贵。HBMnbsp;内存是成本的很大一部分先进封装也是如此。在 SXM 系列 GPU 插槽中非 PCI-Express 版本的 GPUP100 的发布价约为 5,000 美元V100 的发布价约为 10,000 美元A100 的发布价约为 15,000 美元H100 的发布价约为 25,000 至 30,000 美元。B100 的预计售价在 35,000 至 40,000 美元之间——黄仁勋本人在今年早些时候接受CNBC采访时曾表示Blackwell 的价格是这个数字。黄仁勋没有展示的是每一代需要多少 GPU 来运行 GPT-4 1.8T MoE 基准测试以及这些 GPU 或电力在运行时的成本是多少。因此我们根据黄所说的需要大约 10,000 个 B100 来训练 GPT-4 1.8T MoE 大约十天制作了一个电子表格在这八年中GPU 价格上涨了 7.5 倍但性能却提高了 1,000 多倍。因此现在可以想象使用 Blackwell 系统在十天左右的时间内训练出具有 1.8 万亿个参数的大型模型比如 GPT-4而两年前 Hopper 一代刚开始时也很难在数月内训练出具有数千亿个参数的模型。现在系统成本将与该系统两年的电费相当。GPU 约占 AI 训练系统成本的一半因此购买 10,000 个 GPU 的 Blackwell 系统大约需要 8 亿美元运行十天的电费约为 540,000 美元。如果购买更少的 GPU您可以减少每天、每周或每月的电费但您也会相应增加训练时间这会使成本再次上涨。你不可能赢但你也不能放弃。猜猜怎么着Nvidia 也做不到。所以就是这样。即使 Hopper H100 GPU 平台是“历史上最成功的数据中心处理器”正如黄仁勋在 Computex 主题演讲中所说Nvidia 也必须继续努力。附注我们很乐意将 Hopper/Blackwell 的这次投资周期与六十年前 IBM System/360 的发布进行比较正如我们去年所解释的那样当时 IBM 做出了至今仍是企业历史上最大的赌注。1961 年当 IBM 启动其“下一个产品线”研发项目时它是一家年收入 22 亿美元的公司在整个 60 年代花费超过 50 亿美元。蓝色巨人是华尔街第一家蓝筹公司正是因为它花费了两年的收入和二十年的利润来创建 System/360。是的它的一些部分有些晚了表现也不佳但它彻底改变了企业数据处理的性质。IBM 认为它可能会在 60 年代后期带来 600 亿美元的销售额以我们调整后的 2019 年美元计算但他们的销售额只有 1,390 亿美元利润约为 520 亿美元。Nvidia 无疑为数据中心计算的第二阶段掀起了更大的浪潮。那么现在真正的赢家可能被称为绿色芯片公司green chip company吗
抵抗是徒劳的
无论是 Nvidia 还是其竞争对手或客户都无法抵挡未来的引力以及生成性人工智能带来的利润和生产力承诺而这种承诺不仅仅是在我们耳边低语更是在屋顶上大声呼喊。因此Nvidia 将加快步伐突破极限。凭借 250 亿美元的银行存款和今年预计超过 1000 亿美元的收入以及可能再有 500 亿美元的银行存款它有能力突破极限带领我们走向未来。“在这一惊人增长时期我们希望确保继续提高性能继续降低成本——训练成本、推理成本——并继续扩展 AI 功能以供每家公司使用。我们越提高性能成本下降得就越厉害。”正如我们上面所列的表格清楚表明的那样这是事实。这给我们带来了更新的 Nvidia 平台路线图这有点难读所以让我们仔细研究一下。在 Hopper 一代中最初的 H100 于 2022 年推出具有六层 HBM3 内存并配有一个具有 900 GB/秒端口的 NVSwitch 将它们连接在一起并配有 Quantum X400以前称为 Quantum-2InfiniBandnbsp;交换机具有 400 Gb/秒端口和 ConnectX-7 网络接口卡。2023 年H200 升级为六层 HBM3E 内存具有更高的容量和带宽这提高了 H200 封装中底层 H100 GPU 的有效性能。BlueField 3 NIC 也问世了它为 NIC 添加了 Arm 内核以便它们可以执行附加工作。2024 年Blackwell GPU 当然会推出八层 HBM3e 内存并与具有 1.8 TB/秒端口的 NVSwitch 5、800 Gb/秒 ConnectX-8 NIC 以及具有 800 GB/秒端口的 Spectrum-X800 和 Quantum-X800 交换机配对。我们现在可以看到到 2025 年B200上图称为 Blackwell Ultra将拥有 8 堆叠 HBM3e 内存每叠有 12 个die高。B100 中的叠层大概是 8 堆叠因此这应该代表 Blackwell Ultra 上的 HBM 内存容量至少增加 50%甚至可能更多具体取决于所使用的 DRAM 容量。
HBM3E 内存的时钟速度也可能更高。Nvidia 对 Blackwell 系列的内存容量一直含糊其辞但我们在 3 月份 Blackwell 发布会上估计B100 将拥有 192 GB 内存和 8 TB/秒带宽。随着未来的 Blackwell Ultra 的推出我们预计会有更快的内存如果看到 288 GB 内存和 9.6 TB/秒带宽我们也不会感到惊讶。Nvidia 还将在 2025 年推出更高基数的 Spectrum-X800 以太网交换机可能配备六个 ASIC以创建无阻塞架构就像其他交换机通常做的那样将总带宽翻倍从而使每个端口的带宽或交换机的端口数量翻倍。2026 年我们将看到“Rubin” R100 GPU它在去年发布的 Nvidia 路线图中曾被称为 X100正如我们当时所说我们认为 X 是一个变量而不是任何东西的缩写。事实证明确实如此。Rubin GPU 将使用 HBM4 内存并将有 8 个堆栈大概每个堆栈都有 12 个 DRAM而 2027 年的 Rubin Ultra GPU 将有 12 个 HBM4 内存堆栈并且可能还有更高的堆栈尽管路线图没有提到这一点。我们要等到 2026 年也就是当前“Grace”CPU 的后续产品“Vera”CPU 问世时Nvidia 才会推出一款更强大的 Arm 服务器 CPU。NVSwitch 6 芯片与这些芯片配对端口速度为 3.6 TB/秒ConnectX-9 的端口速度为 1.6 Tb/秒。有趣的是还有一种名为 X1600 IB/以太网交换机的产品这可能意味着 Nvidia 正在融合其 InfiniBand 和以太网 ASIC就像 Mellanox 十年前所做的那样。或者这可能意味着 Nvidia 试图让我们所有人都感到好奇只是为了好玩。2027 年还有其他迹象表明这可能意味着超级以太网联盟将完全支持 NIC 和交换机甚至可能使用 UALink 交换机将节点内和跨机架将 GPU 连接在一起。nbsp;
-对此您有什么看法见解-
-欢迎在评论区留言探讨和分享。-