项目信息网站哪个好,小程序是什么时候出来的,门户网站 建设,qq官网登录原文#xff1a;Sina Visitor System
OpenAI的官网发表万字GPT最佳实践指南#xff0c;讲清Prompt提示词的原则和策略#xff0c;这里是总结和全文翻译
原创图像#xff0c;AI辅助生成
OpenAI的官网上刚刚发表一篇万字的GPT最佳实践指南#xff0c;这份指南把写好Promp…原文Sina Visitor System
OpenAI的官网发表万字GPT最佳实践指南讲清Prompt提示词的原则和策略这里是总结和全文翻译
原创图像AI辅助生成
OpenAI的官网上刚刚发表一篇万字的GPT最佳实践指南这份指南把写好Prompt提示词的原则和策略讲得非常清楚对于初学者和常用者来说都值得收藏下来随时参考。
我们一直想写一份给初学者的ChatGPT指南正好OpenAI出了官方指南完全可以起到给初学者打好基础的作用。
这篇文章里我们先会提供一个摘要和注释然后是全文的翻译。
最近各个行业领袖都推出了免费公开的高质量人工智能课程一起在推动人工智能的普及。包括谷歌的Generative AI Learning Path (生成式AI学习路径斯坦福教授AI界大神吴恩达和OpenAI合作的ChatGPT Prompt Engineering for Developers (面向开发者的ChatGPT提示工程微软的Azure提示工程课等等。
我们后续都会分享摘要和学习笔记和大家一起利用好这些免费但是最真材实料的资源。有ChatGPT做超级助教我们有信心高效地征服任何课程。 摘要 OpenAI 提供了从 GPT 模型中获得更好结果的六种策略。这些策略是
写清楚需求。GPT 模型无法读懂您的想法因此在提供需求时尽可能具体是很重要的。这包括在您的查询中包含详细信息要求模型采用角色以及使用定界符清楚地指示输入的不同部分。
提供参考文本。如果可以请提供与您希望模型生成的内容相似的参考文本。这将有助于模型了解您要查找的内容并生成更准确的结果。
将复杂的任务拆分为更简单的子任务。如果您试图让模型做一些复杂的事情将任务分解为更小、更易于管理的子任务会很有帮助。这将使模型更容易理解您的要求并生成更准确的结果。
给 GPT 时间“思考”。GPT 模型不是即时的它们可能需要一些时间来处理您的请求并生成响应。耐心点不要在模型工作时打断它。
使用外部工具。有许多外部工具可用于帮助您从 GPT 模型中获得更好的结果。这些工具可以帮助您完成生成提示、查找参考文本和评估结果等任务。
系统地测试变化。当您对需求或参考文本进行更改时重要的是系统地测试结果以了解它们如何影响模型的输出。这将帮助您确定对改进结果最有效的更改。这一条主要针对应用开发者
AI超能力星球 注释
这份GPT指南不只是针对ChatGPT用户也是针对很多利用GPT的API接口开发应用的开发者。 很多我们看到的所谓“套壳”应用其实只是预设了一些提示词Prompt, 设计了一个对用户友好的界面。用户通过它们的界面输入需求和开发者的预设Prompt结合给到GPT再返回结果。所以这些应用的核心要素也是提示词Prompt。 下面文中多次提到的系统指令System)指的就是事先通过提示词prompt给GPT设定好角色和工作方式。这是那些套壳应用的引擎用户指令和它们预设的系统指令结合再给到GPT从而得到特定的成果。 文中举例的用户指令(User)是来自于终端用户的具体需求。助理回复(Assistant)指的是GPT作为超级助理基于系统指令和用户指令给出的答复。
全文中文版
GPT 最佳实践 本指南分享了从 GPT 获得更好结果的策略和战术。有时可以结合使用此处描述的方法以获得更大的效果。我们鼓励进行实验以找到最适合您的方法。
此处演示的一些示例目前仅适用于我们最强大的模型 gpt-4。如果您还没有访问 gpt-4 的权限请考虑加入候补名单。一般来说如果您发现 GPT 模型在某项任务中失败并且有更强大的模型可用通常值得再次尝试使用更强大的模型。
获得更好结果的六种策略
写清楚需求
GPT 无法读懂你的想法。如果他们的输出太长请要求简短答复。如果他们的输出太简单请要求专家级的写作。如果您不喜欢这种格式请展示您希望看到的格式。GPT 对您想要什么的猜测越少您获得它的可能性就越大。
战术
在您的查询中包含详细信息以获得更相关的答案要求模型采用角色使用定界符清楚地指示输入的不同部分指定完成任务所需的步骤提供例子指定所需的输出长度 提供参考文本
GPT 可以自信地编造假答案尤其是当被问及深奥的话题或引用和 URL 时。就像一张笔记可以帮助学生在考试中取得更好的成绩一样为 GPT 提供参考文本可以帮助以更少的捏造来回答。
战术
指示模型使用参考文本回答指示模型使用参考文本中的引用来回答 将复杂任务拆分为更简单的子任务
正如在软件工程中将复杂系统分解为一组模块化组件是一种很好的做法一样提交给 GPT 的任务也是如此。复杂的任务往往比简单的任务有更高的错误率。此外复杂任务通常可以重新定义为更简单任务的工作流其中早期任务的输出用于构建后续任务的输入。
战术
使用意图分类来识别与用户查询最相关的指令对于需要很长对话的对话应用总结或过滤之前的对话分段总结长文档并递归构建完整摘要 给 GPT 时间“思考”
如果要求将 17 乘以 28您可能不会立即知道但随着时间的推移仍然可以计算出来。同样GPT 在试图立即回答而不是花时间找出答案时会犯更多的推理错误。在回答之前询问一系列推理可以帮助 GPT 更可靠地推理出正确答案。
战术
在匆忙下结论之前指示模型制定出自己的解决方案使用内心独白或一系列查询来隐藏模型的推理过程询问模型是否遗漏了之前传递的任何内容 使用外部工具
通过为 GPT 提供其他工具的输出来弥补它们的弱点。例如文本检索系统可以将相关文档告知 GPT。代码执行引擎可以帮助 GPT 进行数学运算和运行代码。如果一项任务可以通过工具而不是 GPT 更可靠或更有效地完成请下载它以充分利用两者。现在蓬勃发展的ChatGPT plugin 插件正起到这个作用
战术
使用基于嵌入的搜索来实现高效的知识检索使用代码执行来执行更准确的计算或调用外部 API 系统地测试更改
如果可以衡量提高绩效会更容易。在某些情况下对提示的修改会在一些孤立的示例上获得更好的性能但会导致在更具代表性的示例集上的整体性能变差。
因此为确保更改对性能产生积极影响可能有必要定义一个综合测试套件。这个对于套壳应用的开发者特别重要要不断调试提示词来达到自己垂直领域的最佳输出
战术
参考黄金标准答案评估模型输出
策略详解 从这里开始原文对每一个策略和战术都给了更详细的解释和示例
上面列出的每个策略都可以用特定的战术来实例化。这些策略旨在为尝试的事情提供想法。它们绝不是全面的您可以随意尝试此处未展示的用例。
策略写清楚需求
战术在查询中包含详细信息以获得更相关的答案
为了获得高度相关的响应请确保请求提供任何重要的细节或上下文。否则您将把它留给模型来猜测您的意思。
糟糕的提示Prompt vs 好提示Prompt示例
糟糕的如何在 Excel 中添加数字
好的如何在 Excel 中将一行美元金额相加我想对整张行自动执行此操作所有总计都在右侧的名为“总计”的列中结束。
糟糕的谁是总统
好的谁是 2021 年的墨西哥总统选举的频率如何
糟糕的编写代码来计算斐波那契数列。
好的编写一个 TypeScript 函数来高效地计算斐波那契数列。评论代码以解释每一部分的作用以及为什么这样写。
糟糕的总结会议记录。
好的在一个段落中总结会议记录。然后写下演讲者的降价清单和他们的每个要点。最后列出演讲者建议的后续步骤或行动项目如果有。
战术让模型采用角色
系统指令可用于指定模型在其回复中使用的角色。
系统指令
当我请求帮助写东西时你会回复一份文档每个段落至少包含一个笑话或俏皮的评论。
用户指令
给我的钢螺栓供应商写一封感谢信感谢他在短时间内准时交货。这使我们能够交付重要订单。
战术使用定界符清楚地指示输入的不同部分
三重引号、XML 标记、章节标题等分隔符可以帮助区分要区别对待的文本部分。
用户指令
用俳句总结由三重引号分隔的文本。
在此插入文本
系统指令
您将获得一对关于同一主题的文章用 XML 标记分隔。先总结一下每篇文章的论点。然后指出他们中的哪一个提出了更好的论点并解释原因。
用户指令
article 在这里插入第一篇文章/article
article 在这里插入第二篇文章/article 系统指令 您将获得论文摘要和建议的标题。论文标题应该让读者对论文的主题有一个很好的了解但也应该引人注目。如果标题不符合这些标准建议 5 个备选方案。
用户指令
摘要此处插入摘要
标题在此处插入标题 对于诸如此类的简单任务使用定界符可能不会对输出质量产生影响。然而任务越复杂消除任务细节的歧义就越重要。让 GPT 更容易准确理解您对它们的要求。
战术指定完成任务所需的步骤 有些任务最好指定为一系列步骤。明确地写出步骤可以使模型更容易遵循它们。 系统指令
使用以下分步说明响应用户输入。
第 1 步 - 用户将用三重引号为您提供文本。在一个句子中总结这段文字并加上一个前缀“Summary:”。
第 2 步 - 将第 1 步中的摘要翻译成西班牙语并加上前缀“Translation:”。
用户指令
在此插入文本 战术提供示例
提供适用于所有示例的一般说明通常比通过示例演示任务的所有排列更有效但在某些情况下提供示例可能更容易。例如如果您打算让模型复制一种难以明确描述的特定样式来响应用户查询。这被称为“Few Shot”(多范例提示。 系统指令
以一致的风格回答。
用户指令
教我耐心。
助理回复 这是GPT作为超级助理基于系统指令和用户指令给出的答复
开辟最深山谷的河流从温和的泉水流出最伟大的交响乐源于一个音符最复杂的挂毯始于一根单独的线。
用户指令
教我认识海洋。 战术指定输出的所需长度
您可以要求模型生成具有给定目标长度的输出。目标输出长度可以根据单词、句子、段落、要点等的计数来指定。但是请注意指示模型生成特定数量的单词并不能实现高精度。该模型可以更可靠地生成具有特定数量的段落或要点的输出。 用户指令
用大约 50 个单词总结由三重引号分隔的文本。
在此插入文本
用户指令 在 2 个段落中总结由三重引号分隔的文本。
在此插入文本
用户指令
在 3 个要点中总结由三重引号分隔的文本。
在此插入文本 策略提供参考文本
战术指示模型使用参考文本回答
如果我们可以为模型提供与当前查询相关的可信信息那么我们可以指示模型使用提供的信息来编写其答案。
系统指令
使用由三重引号分隔的提供的文章来回答问题。如果在文章中找不到答案写“我找不到答案”。
用户指令
插入文章每篇文章用三重引号分隔
问题在此插入问题
鉴于 GPT 的上下文窗口有限为了应用这种策略我们需要一些方法来动态查找与所问问题相关的信息。嵌入可用于实现高效的知识检索。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”以获取有关如何实现此功能的更多详细信息。
战术指示模型使用参考文本中的引文来回答
如果输入已补充相关知识则可以直接要求模型通过引用所提供文档中的段落来为其答案添加引文。请注意输出中的引用可以通过提供的文档中的字符串匹配以编程方式进行验证。
系统指令
您将获得一份由三重引号和一个问题分隔的文件。您的任务是仅使用提供的文件回答问题并引用用于回答问题的文件中的段落。如果文档不包含回答此问题所需的信息则只需写上“信息不足”。如果提供了问题的答案则必须用引文进行注释。使用以下格式引用相关段落 ({citation: …})。
用户指令
在此处插入文档
在这里插入问题 策略将复杂任务拆分为更简单的子任务
战术使用意图分类来识别与用户查询最相关的指令
对于需要大量独立指令集来处理不同情况的任务首先对查询类型进行分类并使用该分类来确定需要哪些指令可能是有益的。这可以通过定义与处理给定类别中的任务相关的固定类别和硬编码指令来实现。
这个过程也可以递归地应用于将任务分解为一系列阶段。这种方法的优点是每个查询将仅包含执行任务下一阶段所需的指令与使用单个查询执行整个任务相比这可以降低错误率。这也可以降低成本因为更大的提示运行成本更高。
例如假设对于客户服务应用程序可以将查询分类如下
系统指令
您将收到客户服务查询。将每个查询分为主要类别和次要类别。以 json 格式提供带有键的输出primary 和 secondary。
主要类别计费、技术支持、账户管理或一般查询。
计费次要类别
- 退订或升级
- 添加支付方式
- 收费说明
- 对收费提出异议
技术支持二级类别
- 故障排除
- 设备兼容性
- 软件更新
账户管理二级类别
- 重设密码
- 更新个人信息
- 关闭账户
- 账户安全
一般查询次要类别
- 产品信息
- 价钱
- 反馈
- 与人交谈
用户指令
我需要让我的互联网重新工作。
基于客户查询的分类可以向 GPT 模型提供一组更具体的指令来处理后续步骤。例如假设客户需要“故障排除”方面的帮助。
系统指令
您将收到需要在技术支持环境中进行故障排除的客户服务查询。通过以下方式帮助用户
- 请他们检查是否连接了进出路由器的所有电缆。请注意电缆随时间松动是很常见的。
- 如果所有电缆都已连接但问题仍然存在请询问他们使用的是哪种路由器型号
- 现在您将建议他们如何重新启动他们的设备
-- 如果型号是 MTD-327J建议他们按下红色按钮并保持 5 秒钟然后等待 5 分钟然后再测试连接。
-- 如果型号是 MTD-327S建议他们拔下并重新插入然后等待 5 分钟然后再测试连接。
- 如果客户的问题在重启设备并等待 5 分钟后仍然存在请通过输出 {IT support requested} 将他们连接到 IT 支持。
- 如果用户开始询问与此主题无关的问题请确认他们是否愿意结束当前有关故障排除的聊天并根据以下方案对他们的请求进行分类
从此处插入上面的主要/次要分类方案
用户指令
我需要让我的互联网重新工作。
请注意已指示模型发出特殊字符串以指示对话状态何时发生变化。这使我们能够将我们的系统变成一个状态机其中状态决定注入哪些指令。通过跟踪状态哪些指令与该状态相关以及可选地允许从该状态进行哪些状态转换我们可以为用户体验设置护栏而这很难通过结构化程度较低的方法实现。
战术对于需要很长对话的对话应用总结或过滤之前的对话
由于 GPT 具有固定的上下文长度因此用户和助理之间的整个对话在上下文窗口中不能无限期地继续。
这个问题有多种解决方法其中之一是总结对话中的先前回合。一旦输入的大小达到预定的阈值长度这可能会触发一个查询该查询总结了部分对话并且先前对话的摘要可以作为系统消息的一部分包含在内。或者可以在整个对话过程中在后台异步总结先前的对话。
另一种解决方案是动态选择与当前查询最相关的对话的先前部分。请参阅策略“使用基于嵌入的搜索来实现高效的知识检索”。
战术分段总结长文档并递归构建完整摘要
由于 GPT 具有固定的上下文长度因此它们不能用于总结长度超过上下文长度的文本。
要总结一个非常长的文档例如一本书我们可以使用一系列查询来总结文档的每个部分。
节摘要可以被连接和总结生成摘要的摘要。这个过程可以递归地进行直到总结了整个文档。
如果有必要使用有关前面部分的信息来理解后面的部分那么另一个有用的技巧是在书中任何给定点之前包括文本的连续摘要同时总结该点的内容。
OpenAI 在之前的研究中使用 GPT-3 的变体研究了这种用于总结书籍的程序的有效性。 策略给 GPT 时间“思考”
战术在匆忙下结论之前指示模型自己制定解决方案
有时当我们明确指示模型在得出结论之前根据第一原则进行推理时我们会得到更好的结果。例如假设我们想要一个模型来评估学生对数学问题的解决方案。解决这个问题的最明显方法是简单地询问模型学生的解决方案是否正确。
系统指令
判断学生的答案是否正确。
用户指令
问题陈述我正在建造一个太阳能装置我需要帮助来计算财务。
- 土地成本 100 美元/平方英尺
- 我可以以 250 美元/平方英尺的价格购买太阳能电池板
- 我协商了一份维护合同每年将花费我 10 万美元外加每平方英尺 10 美元
运营第一年的总成本与平方英尺数的关系是多少
学生的解答令 x 为以平方英尺为单位的安装尺寸。
1.土地成本100x
2.太阳能电池板成本250x
3.维护费用100,000100x
总成本100x 250x 100,000 100x 450x 100,000
助理回复这位同学的答案是正确的。
但是这位同学的解法其实是不正确的我们可以通过提示模型首先生成自己的解决方案来让模型成功注意到这一点。
系统指令
首先想出你自己解决问题的方法。然后将您的解决方案与学生的解决方案进行比较并评估学生的解决方案是否正确。在您自己完成问题之前不要判断学生的解决方案是否正确。
用户指令
问题陈述我正在建造一个太阳能装置我需要帮助来计算财务。
- 土地成本 100 美元/平方英尺
- 我可以以 250 美元/平方英尺的价格购买太阳能电池板
- 我协商了一份维护合同每年将花费我 10 万美元外加每平方英尺 10 美元
运营第一年的总成本与平方英尺数的关系是多少
学生的解答令 x 为以平方英尺为单位的安装尺寸。
1.土地成本100x
2.太阳能电池板成本250x
3.维护费用100,000100x
总成本100x 250x 100,000 100x 450x 100,000
助理回复
设 x 是以平方英尺为单位的安装尺寸。
1.土地成本100x
2.太阳能电池板成本250x
3.维护费用100,00010x
总成本100x 250x 100,000 10x 360x 100,000
学生的答案是错误的。他们在维护成本计算中犯了一个错误使用 100x 而不是 10x。第一年运营的正确总成本是 360x 100,000。 战术使用内心独白或一系列查询来隐藏模型的推理过程
前面的策略表明模型在回答特定问题之前详细推理问题有时很重要。对于某些应用程序模型用于得出最终答案的推理过程不适合与用户共享。例如在辅导应用程序中我们可能希望鼓励学生自己找出答案但模型对学生解决方案的推理过程可能会向学生揭示答案。
“内心独白”的是指示模型将本应对用户隐藏的输出部分放入结构化格式中以便于分解它们。然后在将输出呈现给用户之前对输出进行分解并仅使部分输出可见。
系统指令
按照以下步骤回答用户查询。
第 1 步 - 首先找出您自己的问题解决方案。不要依赖学生的解决方案因为它可能不正确。将您为此步骤所做的所有工作用三重引号 () 括起来。
第 2 步 - 将您的解决方案与学生的解决方案进行比较并评估学生的解决方案是否正确。将您为此步骤所做的所有工作用三重引号 () 括起来。
第 3 步 - 如果学生犯了错误请确定您可以在不给出答案的情况下给学生什么提示。将您为此步骤所做的所有工作用三重引号 () 括起来。
第 4 步 - 如果学生犯了错误请向学生提供上一步的提示三引号外。不要写“第 4 步 - ...”而写“提示”。
用户指令
问题陈述插入问题陈述
学生解决方案插入学生解决方案
或者这可以通过一系列查询来实现其中除最后一个之外的所有查询都对最终用户隐藏其输出。
首先我们可以让模型自己解决问题。由于此初始查询不需要学生的解决方案因此可以省略。这提供了额外的优势即模型的解决方案不会因学生尝试的解决方案而产生偏差。
用户指令
插入问题陈述
接下来我们可以让模型使用所有可用信息来评估学生解决方案的正确性。
系统指令
将您的解决方案与学生的解决方案进行比较并评估学生的解决方案是否正确。
用户指令
问题陈述“”“插入问题陈述”“”
您的解决方案插入模型生成的解决方案
学生的解决方案“”“插入学生的解决方案”“”
最后我们可以让模型使用自己的分析来构建一个乐于助人的导师角色的回复。
系统指令
你是数学老师。如果学生犯了错误请以不透露答案的方式向学生提供提示。如果学生没有犯错只需给他们一个鼓励的评论。
用户指令
问题陈述“”“插入问题陈述”“”
您的解决方案插入模型生成的解决方案
学生的解决方案“”“插入学生的解决方案”“”
分析插入模型从上一步生成的分析
战术询问模型是否遗漏了之前传递的任何内容
假设我们正在使用一个模型来列出与特定问题相关的来源的摘录。在列出每个摘录后模型需要确定是否应该开始编写另一个摘录或是否应该停止。如果源文档很大模型通常会过早停止并且无法列出所有相关摘录。在这种情况下通常可以通过使用后续查询提示模型来查找它在先前传递中遗漏的任何摘录来获得更好的性能。
系统指令
您将获得一份由三重引号分隔的文件。你的任务是选择与以下问题相关的摘录“人工智能历史上发生了哪些重大的范式转变。”
确保摘录包含解释它们所需的所有相关上下文——换句话说不要提取缺少重要上下文的小片段。以 JSON 格式提供输出如下所示
[{“摘录”“...”}
...
{“摘录”“...”}]
用户指令
在此处插入文档
助理回复
[{“摘录”“模型在这里写一段摘录”}
...
{“摘录”“模型在这里写了另一个摘录”}]
用户指令
有更多相关的摘录吗注意不要重复摘录。还要确保摘录包含解释它们所需的所有相关上下文——换句话说不要提取缺少重要上下文的小片段。 策略使用外部工具
战术使用基于嵌入的搜索来实现高效的知识检索
如果作为输入的一部分提供模型可以利用外部信息源。这可以帮助模型生成更明智和最新的响应。例如如果用户询问有关特定电影的问题将有关电影的高质量信息例如演员、导演等添加到模型的输入中可能会很有用。嵌入可用于实现高效的知识检索以便在运行时将相关信息动态添加到模型输入中。
文本嵌入是一个向量可以衡量文本字符串之间的相关性。相似或相关的字符串将比不相关的字符串靠得更近。这一事实以及快速向量搜索算法的存在意味着嵌入可用于实现高效的知识检索。
特别是一个文本语料库可以被分割成块每个块都可以被嵌入和存储。然后可以嵌入给定的查询并执行向量搜索以从语料库中找到与查询最相关的嵌入文本块即在嵌入空间中最接近。
可以在 OpenAI Cookbook 中找到示例实现。有关如何使用知识检索来减小模型编造错误事实的可能性的示例请参阅策略“指示模型使用检索到的知识来回答查询”。
战术使用代码执行来执行更准确的计算或调用外部 API
不能依赖 GPT 自行准确地执行算术或长计算。在需要的情况下可以指示模型编写和运行代码而不是进行自己的计算。特别是可以指示模型将要运行的代码放入指定的格式中例如三重 backtics。生成输出后可以提取并运行代码。最后如果有必要可以将代码执行引擎即 Python 解释器的输出作为输入提供给下一个查询的模型。
系统指令
您可以通过将 Python 代码括在三重反引号中来编写和执行 Python 代码例如 代码在这里。使用它来执行计算。
用户指令
找出以下多项式的所有实值根3*x**5 - 5*x**4 - 3*x**3 - 7*x - 10。
代码执行的另一个好用例是调用外部 API。如果指导模型正确使用 API则它可以编写使用它的代码。通过向模型提供说明如何使用 API 的文档和/或代码示例可以指导模型如何使用 API。
系统指令
您可以通过用三重反引号括起来来编写和执行 Python 代码。另请注意您可以访问以下模块来帮助用户向他们的朋友发送消息
Pythod
导入消息
message.write(toJohn, message嘿下班后想见面吗) 警告执行模型生成的代码本身并不安全任何试图执行此操作的应用程序都应采取预防措施。特别是需要一个沙盒代码执行环境来限制不受信任的代码可能造成的危害。
策略系统地测试变化 这一部分是针对应用开发者
有时很难判断更改例如新指令或新设计是否会使您的系统变得更好或更糟。查看几个示例可能会暗示哪个更好但是样本量较小时很难区分真正的改进还是随机的运气。也许这种变化有助于某些输入的性能但会损害其他输入的性能。
评估程序对于优化系统设计很有用。好的评估是
代表现实世界的使用或至少是多样化的
包含许多测试用例以获得更大的统计能力
易于自动化或重复
差异检测 95% 置信度所需的样本量
30% ~1010% ~1003% ~1,0001% ~10,000 输出的评估可以由计算机、人类或混合来完成。计算机可以使用客观标准例如只有一个正确答案的问题以及一些主观或模糊标准来自动评估其中模型输出由其他模型查询评估。OpenAI Evals 是一个开源软件框架提供用于创建自动评估的工具。
当存在一系列可能被认为质量相同的输出时例如对于答案很长的问题基于模型的评估可能很有用。使用基于模型的评估可以实际评估的内容与需要人工评估的内容之间的界限是模糊的并且随着模型变得更强大而不断变化。我们鼓励通过实验来弄清楚基于模型的评估对您的用例的适用程度。
战术策略参考黄金标准答案评估模型输出
假设已知问题的正确答案应该参考一组特定的已知事实。然后我们可以使用模型查询来计算答案中包含了多少所需事实。
例如使用以下系统指令
系统指令
您将获得由三重引号分隔的文本这些文本应该是问题的答案。检查答案中是否直接包含以下信息
- 尼尔阿姆斯特朗是第一个在月球上行走的人。
- 尼尔·阿姆斯特朗首次踏上月球的日期是 1969 年 7 月 21 日。
对于这些点中的每一个执行以下步骤
1 - 重复这一点。
2 - 引用最接近这一点的答案。
3 - 考虑阅读引文但不了解主题的人是否可以直接推断出这一点。在判断之前解释为什么或为什么不。
4 - 如果对 3 的回答是“是”则写“是”否则写“否”。
最后提供 m 的计数
有任何“是”的答案。将此计数提供为 {count: insert count here}。
这是一个满足两点的示例输入
系统指令
在上面插入系统指令
用户指令
尼尔阿姆斯特朗因成为第一个踏上月球的人类而闻名。这一历史性事件发生在 1969 年 7 月 21 日阿波罗 11 号任务期间。
这是一个示例输入其中只有一个点得到满足
系统指令
在上面插入系统消息
用户指令
尼尔·阿姆斯特朗走下登月舱创造了历史成为第一个踏上月球的人。
这是一个不满足的示例输入
系统指令
在上面插入系统消息
用户指令
69年夏天盛大远航阿波罗 11 号大胆如传奇之手。阿姆斯特朗迈出一步历史展开“一小步”他说为了一个新世界。
这种基于模型的评估有很多可能的变体。考虑以下变体它跟踪候选答案和黄金标准答案之间的重叠类型并跟踪候选答案是否与黄金标准答案的任何部分相矛盾。
系统指令
按着这些次序。
第 1 步逐步推理产出的答案与专家答案黄金标准的正确答案相比是否是不相交、子集、超集或具有相等的信息集。
第 2 步逐步推理产出的答案是否与专家答案的任何方面相矛盾。
第 3 步输出结构如下的 JSON 对象{containment: disjoint or subset or superset or equal, contradiction: True or False}
这是一个产出答案不达标的示例
系统指令
在上面插入系统消息
用户指令
问题Neil Armstrong 最著名的事件是什么它发生在什么时候假定 UTC 时间。
产出答案他不是在月球上行走吗
专家回答尼尔阿姆斯特朗最出名的是他是第一个踏上月球的人。这一历史性事件发生在1969年7月21日作为美国宇航局阿波罗11号任务的一部分。阿姆斯特朗登上月球时的名言 月球表面“这是个人的一小步人类的一大步”至今仍被广泛引用。
这是一个产出答案很好的示例
系统指令
在上面插入系统消息
用户指令
问题Neil Armstrong 最著名的事件是什么它发生在什么时候假定 UTC 时间。
产出的答案世界标准时间 1969 年 7 月 21 日大约 02:56尼尔·阿姆斯特朗成为第一个踏上月球表面的人类标志着人类历史上的巨大成就。大约 20 分钟后奥尔德林加入了他的行列。
专家回答尼尔·阿姆斯特朗最著名的是他是第一个踏上月球的人。这一历史性事件发生在 1969 年 7 月 21 日阿波罗 11 号任务期间。
结语 以上就是OpenAI的GPT最佳实践指南的全文。OpenAI的官网上有非常多的类似的免费学习资料大家可以去查看现在智能翻译软件这么多语言不应该是障碍。
文中列举的示例也许不全是大家现在就用得到的但它是个值得收藏的手册可以不时按需参考。
上面介绍的“系统指令”一方面我们在日常和ChatGPT聊天中可以用它让ChatGPT进入特定角色和工作模式另一方面掌握了它我们也可以做自己的聊天机器人应用, 甚至用不到写代码这个我们后面也会介绍。
现在MIT、斯坦福这样的顶尖高校和OpenAI, 谷歌和微软等行业领袖都在推出免费公开课我们接下来会持续介绍这些课程期待和大家一起学习跟上AI时代的脚步。