找印度人做网站,做的比较好的意大利网站,汕头网站设计浩森宇特,电脑优化大师下载安装本篇文章我将介绍使用智谱 AI 最新开源的 GLM-4-9B 模型和 GenAI 云服务 SiliconCloud 快速构建一个 RAG 应用#xff0c;首先我会详细介绍下 GLM-4-9B 模型的能力情况和开源限制#xff0c;以及 SiliconCloud 的使用介绍#xff0c;最后构建一个编码类智能体应用作为测试。… 本篇文章我将介绍使用智谱 AI 最新开源的 GLM-4-9B 模型和 GenAI 云服务 SiliconCloud 快速构建一个 RAG 应用首先我会详细介绍下 GLM-4-9B 模型的能力情况和开源限制以及 SiliconCloud 的使用介绍最后构建一个编码类智能体应用作为测试。 本文首发自博客 使用智谱 GLM-4-9B 和 SiliconCloud 云服务快速构建一个编码类智能体应用 我的新书《LangChain编程从入门到实践》 已经开售推荐正在学习AI应用开发的朋友购买阅读此书围绕LangChain梳理了AI应用开发的范式转变除了LangChain还涉及其他诸如 LIamaIndex、AutoGen、AutoGPT、Semantic Kernel等热门开发框架。
GLM-4-9B 有多强
智谱家 GLM-4-9B 模型的发布可以称得上大模型开源领域的又一个里程碑事件除了开源行为本身值得肯定我觉得开源出来的模型可以接入线上应用直接使用可能对我们做应用层的开发者意义更大。话不多说看 GLM-4-9B 的介绍
首先 GLM-4-9B 模型结构与 GLM-3-9B 变化不大主要是模型层数由 28 增加到 40词表大小由 65024 扩充到 151552、支持的上下文长度支持从 32K、128K 扩展到 128K、1MGLM-4-9B-Chat-1M做应用最关注的就是长上下文多轮对话记忆保持、各种阅读助手、长文本理解等常见场景能力和 Function Call 能力工具调用构建智能体应用的基础。
1M 的上下文长度约 200 万中文字符方面GLM-4-9B 在大海捞针测试中全绿。 不过根据英伟达研究团队最近新提出的名为RULER的新基准这里选用的测试方法测试的 LWM 声称上下文长度 1M实际不到 4K测出来的结果有水分这个我还会自己测试下。 Function Call 能力也属于 gpt-4-turbo 级别使用 Berkeley Function-Calling Leaderboard 测试集这个对我来说比较有说服力有兴趣的可以看看测试集设计不过毕竟测试集公开混在训练集里也不好说这个我也按照相同思路设计了对应的私有中文测试集引入之前也会再跑一次作为交叉验证。
ModelOverall Acc.AST SummaryExec SummaryRelevanceLlama-3-8B-Instruct58.8859.2570.0145.83gpt-4-turbo-2024-04-0981.2482.1478.6188.75ChatGLM3-6B57.8862.1869.785.42GLM-4-9B-Chat81.0080.2684.4087.92
虽然开源但也存在限制就是学术研究免费商业用途需要登记且必须遵守相关条款和条件详见 Github 项目介绍https://github.com/THUDM/GLM-4
SiliconCloud 有多好用
SiliconCloud 是硅基流动推出的 GenAI 云服务这是国内同类产品中我体验最好的一家便宜且推理速度还快国外已经有很多类似服务了比如 Banana, Replicate, Beam, Modal 、OctoAI、ModelZ、BentoML等这类服务主要用于私有模型或常见开源模型托管通过它们自研的推理加速引擎、大模型基础设施优化能力大幅降低大模型的部署及推理成本降低 AI 应用的成本加速 AI 产品的落地 。 SiliconCloud 便宜又快的原因就在于硅基流动自研的 LLM 推理加速引擎 SiliconLLM 支持 Llama3、Mixtral、DeepSeek、Baichuan、ChatGLM、Falcon、01-ai零一万物开源的模型、GPT-NeoX 等模型加速下面是 SiliconLLM 与推理框架vLLM伯克利大学 LMSYS 组织开源、Tensorrt-LLM英伟达开源的性能比较。 最后补充一组我自己本地随手测试的 API 调用服务吞吐
首次响应时间与最快响应时间差Latency saved 0.03s 表示首次响应时间与最快响应时间之间的差异这个指标可以反映出大模型 API 服务在处理请求时的波动。优化后的首 token 响应时间Optimized TTFT 0.36s是指在多次请求中最快的一次首 token 响应时间。首 token 响应时间中位数Median TTFT 0.03s 是指在所有请求中首 token 响应时间的中位数即一半的请求首 token 响应时间比这个值快另一半比这个值慢。中位数可以提供一个更稳健的性能指标因为它不受极端值的影响。生成的 token 数量Tokens: 19表示在请求过程中生成的 token 总数。token 生成速率79 tokens/sec 表示每秒生成的 Token 数量这是衡量大模型 API 服务处理能力的一个指标。总时间Total time: 0.59s 表示从开始发送 HTTP 请求到接收到最后一个 token 的时间这是整个请求处理过程的总耗时 构建编码类智能体应用
首先前往官网 https://cloud.siliconflow.cn/auth/login 注册 SiliconCloud 账号无需手机号邮箱注册即可值得一提新用户注册可以得到 42 元免费额度用于体验相当于 3 亿 tokens按流程注册保存好生成的 API-KEY。 开始之前先设置好 SiliconCloud 的 GLM-4-9B-Chat 模型 API 调用方式也与 OpenAI 兼容 所以可以直接使用 OpenAI SDK langchain_openai来访问 SiliconCloud 上的任意模型。
import os
from langchain_openai import ChatOpenAI
sc_api_key os.getenv(SC_API_KEY)
llm ChatOpenAI(base_urlhttps://api.siliconflow.cn/v1,api_keysc_api_key,modelzhipuai/glm4-9B-chat)后续代码和这篇文章 DeepSeek-V2 到底有多强写一个 AI 编码 Agent 测测看附详细代码基本一致也有着详细解释过程这里不再赘述后台回复 DeepSeek可获取完整代码。