当前位置: 首页 > news >正文

泊头公司做网站做网站最多的行业

泊头公司做网站,做网站最多的行业,wordpress版权修改,ui设计师是什么更好的效果#xff0c;更低的价格#xff0c;听起来是不是像梦呓#xff1f; 限制 首先#xff0c;让我们来介绍一个词#xff1a;RAG。 简单来说#xff0c;RAG#xff08;Retrieval-Augmented Generation#xff0c;检索增强生成#xff09; 的工作原理是将大型文档… 更好的效果更低的价格听起来是不是像梦呓 限制 首先让我们来介绍一个词RAG。 简单来说RAGRetrieval-Augmented Generation检索增强生成 的工作原理是将大型文档分割成多个小段落或片段。主要原因是大语言模型的上下文窗口长度有限无法一次处理超过上下文窗口长度的信息。 当我提出一个问题时RAG 技术可以先从这些片段中检索相关信息根据我提问的内容与这些片段的相似度找出若干个与问题相关的片段组合成一个上下文然后将这些信息连同我的提问一起输入到大语言模型中然后期待大语言模型「更为精准」的回答。 然而我们需要考虑一些潜在的局限性。对于一个足够长的文档和一个非常复杂的问题单靠这几个仅仅是疑似相关的片段可能是不够的。真正的答案也许根本就不在里面。 我们之前讨论了很多关于私有知识库。例如 Quivr, Elephas, GPTs, Obsidian Copilot …… 用久了你会发现私有知识库提供的回答结果与通过数据微调模型获得的结果可能差异很大 —— 微调后的模型往往能够依据私有数据回答非常复杂的问题而 RAG 这种简单粗暴的拼接方式很多时候得到的答案并不理想。 图谱 这些问题就催生了 GraphRAG。GraphRAG 是一种创新的技术它结合了知识图谱结构和 RAG 方法旨在解决传统 RAG 方法的局限性。 这是微软研发的一个创新产品它代表了 RAG 技术的最新进展。微软还发布了相关的学术论文详细阐述了 GraphRAG 的理论基础和技术实现。 那么这里的 Graph图 究竟是什么意思呢在 GraphRAG 的主页上你会看到一个复杂的图谱。这个图谱不仅仅是一个简单的示意图它代表了知识的结构化表示。在这个图谱中每个节点可能代表一个概念或实体而连接这些节点的边则表示它们之间的关系。 假设图谱中有一个节点是「老虎」另一个是「兔子」老虎与兔子之间连一条线上面写着「吃」代表二者的关联是「老虎吃兔子」。当然这只是一个不够严谨的比喻。 有了这样的图谱为什么要将其与刚才提到的 RAG 结合呢因为之前提到的「满地找碎片」的传统 RAG 方式实际上效果不佳所以我们希望将这些概念之间的复杂关系展现出来。在查询时不再是大海捞针去找「可能相关」的信息碎片而是根据图谱中已经掌握的关联提取一整串相连的信息让大语言模型来一并处理。 这里是 GraphRAG 的 GitHub 网址。它在 GitHub 上的受欢迎程度如何已经获得超过一万一千颗星。 对于一个项目来说这是一个非常好的成绩我做梦都希望自己的项目能达到这样的水平。看来还得继续努力。 特点 我们来看看 GraphRAG 的特点。它融合了人工智能的两大流派一个是深度学习另一个是知识图谱。 曾经这两个流派是对立的。后来发现对立干啥啊 你现在用深度学习直接回答效果不好但如果结合图谱效果就会强很多。 另一方面构建知识图谱原来得人工根据规则去抽取其中的实体和关联那是一个砸钱堆人力的活计。后来发现用上深度学习可以有效提升实体抽取效率。特别是有了大语言模型人们发现抽取实体和关联变得更加准确、简单且低成本。所以二者的融合是大势所趋。 那么融合之后的 GraphRAG 擅长什么呢它能够把实体之间的复杂关系和上下文串联起来。 正如刚才我们提到的这个过程它可以连接多个信息点进行复杂查询。这种查询不是简单地提取一部分信息就能完成的。原先根据相似度找出来的这些信息碎片可能根本不足以支撑问题解答。但现在根据实际关联获取相关信息效果要好很多。 另外 GraphRAG 由于对数据集有了整体的刻画因此概念语义信息得到了充分的表达。 两个特点相夹持使得 GraphRAG 的表现有了非常显著的改进。后面的例子里你也能观察到这点。 局限 不过这个技术也不是那么完美。它遇到的问题最为显著的就是一个字 —— 贵。 官方的例子提到一本书稍后我们会看到实体书篇幅大概 200 页左右。把它图谱化 RAG 需要花多少钱 11 美金。 有的人觉得这太贵了为了索引一本电子书耗费的钱都快赶上一本实体书了。 那么我们有没有解决办法呢我们需要分析。 GraphRAG 实施成本为什么会那么高因为它使用的是 GPT-4 Turob Preview 模型。这个模型 token 成本较高由于在图谱构建过程中需要反复调用它因此 GraphRAG 成本居高不下。 既然找到了原因我们是否可以使用一个更经济的模型来替代它呢 这是个很自然就能联想到的问题。许多人也已经做了尝试。例如有人尝试在本地运行 Ollama 这样的本地小型模型但最终效果不好构建过程中常常出现问题。 有的人使用 Groq 来做而且成功了但需要进行不少复杂的设置变更对于初级用户来说非常麻烦。 最简便的方法自然是期待 OpenAI 推出一个更经济实惠的模型。 期盼着期盼着好消息来了。 OpenAI 最近给我发了信说它新推出了一个 GPT-4o mini 模型。 不要被名称忽悠了——GPT-4o mini 的对标模型其实是GPT-3.5 Turbo但它甚至比3.5 Turbo还要便宜60%。 我不得不钦佩 OpenAI 现在的命名方式。如果你把它叫做 GPT 3.5 Turbo Plus效果可能就不好因为人们会觉得这不就是一个改进版的 3.5 吗虽然便宜一点但依然觉得不太满意。 你把它叫做 GPT-4o mini 人们就会脑补这是一个好的模型多模态、快速又便宜。大家就会觉得自己占了便宜竟然能用一个跟 GPT-4o 对标的模型居然比原来的 3.5 还便宜那么多这无论如何也是个甜买卖啊。 我拿到 GPT-4o mini 的使用权限后立即测试了一下它的中文写作。我把测试结果分享到了知识星球。 不过你不要误解GPT-4o mini 毕竟是个小模型你可以指望它的中文输出能力但千万不要以为它的推理与逻辑思考能力也可以赶上 GPT-4o 或者 Claude 3.5 Sonnet 。所以我是把它放在了工作流里合适的位置上物尽其用。 突然我想到 GPT-4o mini 不仅可以用来输出文字还可以用它和 GraphRAG 「双剑合璧」啊。 想到这里都觉得兴奋不已那咱们下面就来看看效果究竟如何。 安装 首先我们需要把 GraphRAG 安装上这里使用 pip install非常简单。 pip install graphrag 它会安装一系列的依赖包括了 GraphRAG 所需的各种库和工具。安装过程可能需要一些时间取决于你的网络速度和电脑性能。 安装完成后我们找一个目录新建一个目录然后在下面执行这一句。 mkdir -p ./ragtest/input 这里的 input 是什么呢就是我们存放输入的文本 —— 像刚刚提到的 200 页的书或者文章 —— 的地方。 我在 Visual Studio Code 下给你演示吧比较直观。 执行这条命令后侧边栏会出现一个新的文件夹。 接下来我们要把书籍资料下载下来。这里 GraphRAG 官网样例使用的是古腾堡计划上面有很多免费的图书。古腾堡计划是一个致力于创建和分发免费电子书的志愿者项目它提供了大量版权已过期的经典文学作品。 GraphRAG 官网给的样例是《圣诞颂歌》是查尔斯・狄更斯创作的一部著名小说讲述了一个守财奴在圣诞节前夜经历的奇妙故事最终改变了自己的人生态度。 执行下面这条命令下载即可 curl https://www.gutenberg.org/cache/epub/24022/pg24022.txt ./ragtest/input/book.txt 我查看了一下下载的文件在本地显示为 189KB。大吗对于文本来说不算太少。不过相对于今天动辄上 GB 的存储内容来说那是真不大。 下载完成后我们需要进行初始化。 python -m graphrag.index --init --root ./ragtest 这个步骤是为了设置 GraphRAG 的基本环境和配置确保后续操作能够顺利进行。 我们来看一下执行很快因为这里面不做任何实际索引操作只是新建几个文件和文件夹。 刚才有一个 input 是你自己建的现在 GraphRAG 创建了 output 文件夹、prompts 文件夹还有两个设定文件。 我们先设置这个 .env 文件里面需要填入一些配置。这些配置通常包括 API 密钥、模型选择等重要参数它们对于 GraphRAG 的正常运行至关重要。 你需要将 OpenAI 提供的 API 密钥填入 GRAPHRAG_API_KEY 即可。 另外settings.yaml 文件也需要修改。 这里面有一项尤其需要注意。原来默认使用的是 GPT-4 Turbo preview这一定要改为 GPT-4o mini因为我们要尝试降低成本。其他设置无需更改。 接下来我们来建立索引。回到终端执行以下命令。 python -m graphrag.index --root ./ragtest 这条命令建立一个图谱化的知识库。这个过程花了足足五分钟的时间咱们就不详细展示了。 查询 终于图谱构建完毕。下面我们做一个查询。 python -m graphrag.query \ --root ./ragtest \ --method global \ What are the top themes in this story? 注意这里的命令Global全局代表我对整本书提问。我们问的问题是这个故事有哪些最主要的主题 来看一下结果。 结果显示了若干主题每个答案后面都有一系列的内容来源标号这一点很重要。它强调了大语言模型没有幻觉而确实是利用你提供的资料来给出答案。 为了让你看得更加清楚我给你把上面的答案翻译一下。这里我们使用的是吴恩达老师的三步反思翻译法。 为了让 AI 工作流更加简单我做了一个工具并且开放在了 Github 上面网址在这里。https://github.com/wshuyi/workflows_with_litellm_pub如果你觉得好用别忘了给加颗星啊。 这个项目可以帮助我们快捷地执行工作流程。它包含了一系列预设的脚本和配置文件使得我们能够轻松地设置环境、运行查询。 这个项目不仅可以提高效率还能确保工作流程的一致性。你可以将复杂的工作流程简化为一个配置文件。这个文件可以清晰地定义每一个步骤使得整个流程变得更加透明和可管理。 这就是一个配置文件的例子。 这里我说你要进行三步操作这三步操作构成了一个完整的工作流程。 第一步是执行一个叫做 “翻译成中文”translate_cn 的工作提示词。这个步骤的目的是将输入的英文内容转换为中文。使用的输入来自于用户提供的信息模型调用的还是 GPT-4o mini。 第二步是对刚才的翻译结果进行评价。这一步的目的是确保翻译的质量通过客观的评价来识别可能存在的问题或改进空间。它的输入相对多一些除了原文还应该包括刚才第一步给出的直译结果。为了保证修改建议的有效性和可靠性我们使用思辨能力更强的 Claude 3.5 Sonnet 模型。 第三步则是综合原文、直译和反思建议进行精细翻译。这里我们还是使用 GPT-4o mini 模型以降低成本提升输出速度。 这种方法的优势在于它的灵活性和可定制性你可以根据具体需求来调整每一步的提示词从而优化整个工作流程。具体安装和使用方式请参考《如何轻松定制和调用你自己的 AI 工作流》一文。 闲言少叙我们来看翻译的结果。这个结果是经过我们刚才描述的三步工作流程处理后得到的。通过这个例子你也可以直观看到工作流的效果。 验证 我们该不该相信这个结果我觉得尽管在回答中GraphRAG 给出了来源片段信息但这还不够。 假设你根本就没有读过狄更斯的这本小说该如何验证刚才给出的答案呢 你可以写一个提示词 你是一名资深英语文学教师现在你就狄更斯小说 A Christmas Carol 提出来了一个问题 What are the top themes in this story?下面我提供给你的文档是一个学生的回答。请你根据你对这本小说的理解一段段核对看答案是否有事实性错误以及是否有可改进的地方 然后把这个提示词连同刚刚 GraphRAG 给出的结果英文即可交给 Claude 3.5 Sonnet 。 然后这是 Claude 3.5 Sonnet 给出的回答质量分析结果。让我们来看看它的评价。 Claude 3.5 Sonnet 给出总体评价这是一个非常优秀的分析。这个结果证明了我们利用知识图谱进行检索的方法非常有效。到此为止我们是否可以完全相信这个答案呢 当然不行。 刚才看到的是大语言模型基于自己训练时对数据的记忆得出的结果这依然可能会产生幻觉。因此我们需要让 AI 连接网络进行查询以验证信息的准确性。 在这方面一个比较好的工具就是 Perplexity。它能够网络查询验证信息的准确性。 首先Perplexity 会查找与输入内容相关的信息列出了多个相关的信息来源。然后Perplexity 会核对主题识别的准确性。 在 Perplexity 的分析中你可以看到它使用了这些词语来评价准确地捕捉、准确地识别、很好的捕捉准确地指出、很好的总结。它还指出没有明显的事实性错误主题的选择和分析都很到位。 通过这两种方法的交叉验证我们对大语言模型根据我们的图谱式知识库给出的答案就更有信心了。 成本 使用这种方法的成本如何呢 我打开 OpenAI 控制台查看一开始吓了一跳 —— 今天的账单又起飞了 好在仔细一看实际花费仅仅 0.28 美金。下面是明细。 有 0.05 美金将近五分之一是用于语音识别的这与我们当前的任务无关。 换句话说我们用于总结这本书、构建知识图谱型知识库以及进行查询的实际花费是多少呢仅需要 0.23 美金。 考虑到使用官方样例花费 11 美金你会发现 GPT-4o mini 带来的成本改善令人惊叹。 小结 通过本文的讲解你可以发现 GraphRAG 技术能帮助我们更准确地回答全局性的复杂问题这对许多应用场景来说至关重要。 进一步结合 GPT-4o mini 模型我们不仅提高了处理效率和速度还有效降低了成本。对于个人用户、研究人员和企业来说这都是一个好消息。 自己动手试一试吧欢迎你把自己的测试结果分享在留言区咱们一起交流讨论。 祝基于知识图谱的 AI 知识库使用愉快 点赞 「在看」转发给你身边有需要的朋友。收不到推送?那是因为你只订阅却没有加星标。 欢迎订阅我的小报童付费专栏每月更新不少于3篇文章。订阅一整年价格优惠。 如果有问题咨询或者希望加入社群和热爱钻研的小伙伴们一起讨论订阅知识星球吧。不仅包括小报童的推送内容还可以自由发帖与提问。之前已经积累下的帖子和问答就有数百篇。足够你好好翻一阵子。知识星球支持72小时内无条件退款所以你可以放心尝试。 若文中部分链接可能无法正常显示与跳转可能是因为微信公众平台的外链限制。如需访问请点击文末「阅读原文」链接查看链接齐备的版本。  延伸阅读 开发文档 RAG 的 GPTs 如何更高效地帮你 AI 编程如何用人工智能帮你读论文文科生用机器学习做论文该写些什么如何用人工智能帮你高效寻找研究选题如何用人工智能帮你找论文
http://www.dnsts.com.cn/news/216771.html

相关文章:

  • 十堰网站优化价格国外企业网站建设模型
  • 网站建设方面的文章科技创新导报
  • 企业网站推广策略红色培训网站源码
  • 招商网站开发文档网站怎么制作成软件
  • 知名的环保行业网站开发嘉兴seo推广优化
  • 如何创建一个企业网站广告片拍摄制作公司
  • 做网站除了域名还要买什么广州哪家做网站最好
  • 电力网站建设方案wordpress安装在哪里
  • 建设一个大型电影网站费用建设企业管理类网站
  • 怎么让做的网站赚钱吗网址生成app一键生成器
  • 焦作有网站建设公司推广营销企业
  • 做故障风的头像的网站网站开发技术 下载
  • wordpress 作者调用深圳seo云哥
  • 个人建网站允许吗手机怎么访问微网站
  • 购物网站服务器带宽wordpress仿落网
  • 天津地区网站建设php做网站速成
  • 做网站多少钱角西宁君博特惠景翔物流网站建设公司
  • 成都专业网站设计免费咨询移动商城网站建设 深圳
  • 台州卓远做网站好不好苏州网站建设企业网站制作
  • 网站ip流量查询罗源网站建设
  • 促销方法100种站长之家seo查找
  • 网站建设 书籍下载国家建设部网站证书查询
  • 电商网站国内外需求分析广州最新新闻头条
  • 做网站一般用什么系统网站无法发送邮件wordpress
  • 如何建设和优化网站青岛 网站备案
  • 网页制作公司网站做网站的知名公司
  • 门户网站的建设费用小程序模板做视频网站
  • 网站建设教程设最优秀的无锡网站建设
  • 佛山网站建设电话wordpress 菜单 间距
  • 做网站wordpress网站建设基础教案