网站开发 书,风险的网站怎么出现,长沙网络推广营销,wordpress4.9.1Grok-1#xff1a;参数量最大的开源大语言模型
项目简介
由马斯克领衔的大型模型企业 xAI 正式公布了一项重要动作#xff1a;开源了一个拥有 3140 亿参数的混合专家模型#xff08;MoE#xff09;「Grok-1」#xff0c;连同其模型权重和网络架构一并公开。
此举将 Gro…Grok-1参数量最大的开源大语言模型
项目简介
由马斯克领衔的大型模型企业 xAI 正式公布了一项重要动作开源了一个拥有 3140 亿参数的混合专家模型MoE「Grok-1」连同其模型权重和网络架构一并公开。
此举将 Grok-1 树立为目前最大参数量的开源大语言模型。 在这个关键时刻马斯克自然不放过机会对 OpenAI 进行了一番讽刺他表示“我们很想探索 OpenAI 中‘开放’的那一部分”。 模型 回到模型本身Grok-1 是从零开始训练的而且没有为任何特定应用例如对话系统进行过微调。相比之下在 X原名 Twitter上使用的 Grok 大型模型已经进行了微调因此其行为与原始权重版本不同。
Grok-1 模型的详细信息包括
·基础模型基于大量文本数据训练未针对任何特定任务进行微调
·是一个包含 3140 亿参数的混合专家MoE模型给定 token 的激活权重为 25%
·2023 年 10 月xAI 使用 JAX 库和 Rust 语言的自定义训练栈从头开始进行训练。
xAI 根据 Apache 2.0 许可证公开了 Grok-1 的权重和架构。Apache 2.0 许可证允许用户自由使用、修改和分发软件不论是个人还是商业用途。项目发布仅10小时就已获得 11.1k 星标人气持续上升。 Grok-1模型因其巨大的参数量—314亿个参数—而引起了网友们的极大兴趣。由于每个参数需要2字节的内存来存储整个模型大约需要628GB的GPU内存才能运行。为了达到这样的内存需求就需要使用多个高性能GPU。
以目前市场上的高端GPUNVIDIA H100为例每个提供大约80GB的显存。根据这个配置运行完整的Grok-1模型大概需要8个H100 GPUs来提供足够的内存空间。
这是一种非常高端的配置通常只有在专业的数据中心或者具备先进计算资源的研究机构中才能找到。对于大多数个人用户和小型开发团队来说这种配置是不切实际的。因此想要运行如此庞大的模型就需要获得相应级别的硬件支持这通常意味着相当大的投资。
使用
这个仓库包含用于加载和运行 Grok-1 开放权重模型的 JAX 示例代码。
请确保下载了检查点并将 ckpt-0 目录放在 checkpoint 中。然后运行
pip install -r requirements.txtpython run.py测试代码。
该脚本加载检查点并在一个测试输入上从模型中采样。
由于模型的体积很大314B 参数需要一台具有足够 GPU 内存的机器来用示例代码测试模型。这个仓库中的 MoE 层的实现并不高效。选择这种实现是为了避免需要自定义核心来验证模型的正确性。
项目链接
https://github.com/xai-org/grok-1
Grok-1马斯克兑现诺言发布参数量最大的开源大语言模型发布10小时11.1k星星