当前位置: 首页 > news >正文

雄安智能网站建设公司成品短视频app源码的下载方法

雄安智能网站建设公司,成品短视频app源码的下载方法,wordpress海报生成器,网上做兼职网站正规摘要 链接#xff1a;https://cdn.openai.com/papers/gpt-4.pdf 我们汇报了GPT-4的发展#xff0c;这是一个大规模的多模态模型#xff0c;可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中#xff0c;GPT-4的能力不如人类#xff0c;但它在各种专业和学术基…摘要 链接https://cdn.openai.com/papers/gpt-4.pdf 我们汇报了GPT-4的发展这是一个大规模的多模态模型可以接受图像和文本输入并产生文本输出。虽然在许多现实场景中GPT-4的能力不如人类但它在各种专业和学术基准上表现出了人类的水平包括以大约前10%的成绩通过模拟律师资格考试。GPT-4是一个基于transformer的预训练模型用于预测文档中的下一个标记。训练后的调整过程会提高对事实的衡量和对期望行为的坚持。这个项目的一个核心组成部分是开发基础设施和优化方法这些方法可以在大范围内预测行为。这使得我们能够准确地预测GPT-4性能的某些方面基于不超过GPT-4计算量的千分之一的训练模型。 1、简介 本技术报告介绍了GPT-4一种能够处理图像和文本输入并产生文本输出的大型多模态模型。这些模型是一个重要的研究领域因为它们具有广泛应用的潜力如对话系统、文本摘要和机器翻译。因此近年来它们一直是人们感兴趣和取得进展的主题[1-34]。 开发此类模型的主要目标之一是提高它们理解和生成自然语言文本的能力特别是在更复杂和微妙的场景中。为了测试它在这种情况下的能力GPT-4在最初为人类设计的各种考试中进行了评估。在这些评估中它表现得相当好经常超过绝大多数人类考生。例如在模拟律师资格考试中GPT-4的成绩在考生中排名前10%。这与GPT-3.5形成了鲜明对比后者的得分位于后10%。 在一套传统的NLP基准测试上GPT-4优于以前的大型语言模型和大多数最先进的系统(通常具有特定于基准测试的训练或手工工程)。在MMLU基准测试[35,36]中GPT-4不仅在英语方面比现有模型表现出色而且在其他语言方面也表现出色。MMLU是一套涵盖57个科目的英语选择题。在MMLU的翻译版本中GPT-4在考虑的26种语言中有24种超过了最先进的英语。我们将在后面的章节中更详细地讨论这些模型性能的结果以及模型安全性的改进和结果。 本报告还讨论了该项目的一个关键挑战即开发在大范围内可预测行为的深度学习基础设施和优化方法。这使得我们能够预测GPT-4的预期性能(基于以类似方式训练的小型运行)并与最终运行进行测试以增加我们训练的信心。 尽管GPT-4功能强大但它与早期的GPT模型有相似的局限性[1,37,38]:它不完全可靠(例如可能会出现“幻觉”)上下文窗口有限并且不能从经验中学习。在使用GPT-4输出时应小心特别是在可靠性很重要的情况下。 GPT-4的能力和局限性带来了重大而新颖的安全挑战我们认为考虑到潜在的社会影响仔细研究这些挑战是一个重要的研究领域。本报告包括一个广泛的系统卡(在附录之后)描述了我们预计的关于偏见、虚假信息、过度依赖、隐私、网络安全、扩散等方面的一些风险。它还描述了我们为减轻GPT-4部署带来的潜在危害而采取的干预措施包括与领域专家进行对抗性测试以及一个模型辅助的安全管道。 2、本技术报告的范围和限制 本报告主要介绍GPT-4的功能、限制和安全特性。GPT-4是一个Transformer风格的模型[39]用预训练模型预测文档中的下一个标记使用公开可用数据(如互联网数据)和第三方提供商授权的数据。然后使用来自人类反馈的强化学习(RLHF)[40]对模型进行微调。考虑到竞争格局和大型模型(如GPT-4)的安全影响本报告没有包含有关架构(包括模型大小)、硬件、训练计算、数据集构造、训练方法或类似内容的进一步细节。 我们致力于对我们的技术进行独立审计并在这个版本附带的系统卡中分享了这一领域的一些初始步骤和想法我们计划向更多的第三方提供进一步的技术细节他们可以就如何权衡上述竞争和安全考虑与进一步透明的科学价值提供建议。 3、可预测的规模 GPT-4项目的一大重点是构建一个可预测扩展的深度学习堆栈。主要原因是对于像GPT-4这样的大型训练运行进行大量的特定于模型的调优是不可行的。为了解决这个问题我们开发了在多个尺度上具有非常可预测行为的架构和优化方法。这些改进使我们能够从较小的模型中可靠地预测GPT-4性能的某些方面使用较少的1.000倍- 10,000倍的计算量进行训练。 3.1 Loss Prediction 经过适当训练的大型语言模型的最终损失被认为很好地近似于用于训练模型的计算量的幂律[41,42,2,14,15]。 为了验证我们优化架构的可扩展性我们通过拟合一个具有不可约损失项(如Henighan et al.[15])的缩放定律来预测GPT-4在内部代码库(不属于训练集)上的最终损失:L(C)aCbcL(C)a C^{b}cL(C)aCbc;来自使用相同方法训练的模型但使用的计算量最多比GPT-4少10,000倍。这个预测是在运行开始后不久做出的没有使用任何部分结果。拟合的标度律对GPT-4的最终损耗进行了高精度预测(图1)。 3.2 在HumanEval数据集的扩展能力 在训练之前对模型的能力有一个了解可以改善有关对齐、安全和部署的决策。除了预测最终损失我们还开发了方法来预测更可解释的能力指标。其中一个指标是HumanEval数据集[43]的通过率它衡量合成不同复杂度Python函数的能力。通过从至多用1训练的模型外推我们成功预测了HumanEval数据集的一个子集的通过率;减少了1000倍的计算量(图2)。 对于人类评估中的单个问题性能偶尔会随着规模的扩大而恶化。尽管有这些挑战我们发现了一个近似的幂律关系−EP[log⁡(pass—rate(C))]α∗C−k-\mathrm{E}_{P}[\log (\text {pass—rate}(\mathrm{C}))]\alpha * \mathrm{C}^{-k}−EP​[log(pass—rate(C))]α∗C−k其中k和α是正常数P是数据集中问题的一个子集。我们假设这个数据集中的所有问题都存在这种关系。在实际应用中非常低的通配率是很难或不可能估计的因此我们将问题P和模型M限制在给定大样本预算的情况下每个问题至少被每个模型解决一次。 在训练完成之前我们仅使用训练之前可用的信息注册了GPT-4在HumanEval上的性能预测。除了15个最难的人类问题之外所有问题都根据较小模型的性能被分为6个难度桶。图2显示了第3个最简单桶的结果表明由此产生的预测对于这个HumanEval问题子集非常准确我们可以准确地估计几个较小模型的log(pass_rate)。对其他五个桶的预测表现几乎一样好主要的例外是GPT-4在最简单的桶上的预测表现不佳。 某些能力仍然难以预测。例如逆尺度奖[44]提出了几个任务对于这些任务模型性能随着尺度的变化而下降。与Wei等人最近的结果[45]类似我们发现GPT-4逆转了这一趋势如图3中称为事后忽视[46]的任务之一所示。 我们相信准确预测未来的能力对安全很重要。展望未来我们计划在大型模型训练开始之前完善这些方法并注册各种能力的性能预测我们希望这成为该领域的共同目标。 4、能力 我们在一系列不同的基准上测试了GPT-4包括模拟最初为人类设计的考试。我们没有针对这些考试进行专门的培训。考试中的少数问题是模型在训练过程中看到的;对于每个考试我们运行一个删除这些问题的变体并报告这两个问题的较低分数。我们认为结果具有代表性。有关污染的更多细节(方法和每次检查的统计数据)请参见附录C。 考试的材料都是公开的。考试题目包括多项选择题和自由回答题;我们为每种格式设计了单独的提示并将图像包含在需要的问题的输入中。评估设置是基于在验证集的考试上的表现而设计的我们报告了在保留测试考试上的最终结果。总分由多项选择题和自由回答题的分数决定每次考试采用的方法都是公开的。我们估计并报告每个总分数对应的百分位数。有关考试评估方法的更多细节请参见附录A。 在大多数专业和学术考试中GPT-4表现出了人类水平的表现。值得注意的是它通过了模拟版的统一律师考试成绩在前10% 的考生(表1图4)。 该模型的考试能力似乎主要来自预训练过程并没有受到RLHF的显著影响。在多项选择题上基础GPT-4模型和RLHF模型在所有测试中的平均表现都一样好(见附录B)。 我们还在为评估语言模型而设计的传统基准上评估了预训练的基础GPT-4模型。对于我们报告的每个基准我们对出现在训练集中的测试数据进行了污染检查(有关每个基准污染的完整详细信息请参见附录D)在评估GPT-4时我们对所有基准使用少样本提示[1]。 GPT-4大大优于现有的语言模型以及以前最先进的(SOTA)系统这些系统通常具有特定于基准的制作或额外的训练协议(表2)。 许多现有的ML基准是用英语编写的。为了初步了解GPT-4在其他语言中的能力我们使用Azure Translate将MMLU基准[35,36] (一套涵盖57个主题的多项选择问题)翻译成各种语言(例如翻译和提示请参阅附录F)。在测试的大多数语言中包括拉脱维亚语、威尔士语和斯瓦希里语等低资源语言GPT-4的英语性能优于GPT 3.5和现有的语言模型(Chinchilla[2]和PaLM[3])(图5)。 与之前的模型相比GPT-4在遵循用户意图的能力上有了很大的提高[63]。在提交给ChatGPT[64]和OpenAI API[47]的5214个提示数据集上GPT-4生成的回答在70:2%的提示中优于GPT-3.5生成的回答。 我们正在开源OpenAI Evals这是我们的框架用于创建和运行评估GPT-4等模型的基准同时逐个样本检查性能。评估与现有的基准测试兼容并可用于跟踪部署中模型的性能。我们计划随着时间的推移增加这些基准的多样性以代表更广泛的故障模式和更难的任务集。 4.1 视觉输入 GPT-4接受由图像和文本组成的提示这与纯文本设置并行允许用户指定任何视觉或语言任务。具体来说该模型在给定由任意交错的文本和图像组成的输入时生成文本输出。gpt -4在一系列域中(包括带有文本和照片、图表或屏幕截图的文档)显示出与纯文本输入类似的功能。在表3中可以找到GPT-4可视化输入的示例。为语言模型开发的标准测试时间技术(例如少镜头提示思维链等)在使用图像和文本时同样有效——参见附录G中的示例。 在GPT-4的博客文章[65]中可以找到一套狭窄的学术视觉基准的初步结果。我们计划在后续工作中发布更多关于GPT-4视觉能力的信息。 5、局限性 尽管GPT-4功能强大但它与早期GPT模型有相似的局限性。最重要的是它仍然不完全可靠(它会“产生幻觉”事实并犯推理错误)。在使用语言模型输出时特别是在高风险上下文中应该非常小心使用与特定应用程序的需求相匹配的确切协议(例如人工检查、附加上下文接地或完全避免高风险使用)。详情请参阅我们的系统卡。 与之前的GPT-3.5模型相比GPT-4显著减少了幻觉(GPT-3.5模型本身也在不断迭代中得到改进)。在我们内部的、对抗性设计的事实性评估中GPT-4的得分比我们最新的GPT-3.5高出19个百分点(图6)。 GPT-4在TruthfulQA[66]等公共基准上取得了进展该基准测试模型从对抗选择的一组不正确语句中分离事实的能力(图7)。这些问题与统计上具有吸引力的事实错误答案配对。GPT-4基本模型在这项任务上只比GPT-3.5稍微好一点;然而在RLHF训练后我们观察到GPT-3.5有很大的改进。表4显示了正确答案和错误答案。GPT-4拒绝选择俗语(你不能教老狗新把戏)但它仍然会遗漏一些微妙的细节(猫王不是演员的儿子所以帕金斯是正确答案)。 GPT-4通常缺乏对其绝大多数训练前数据在2021年9月中断后发生的事件的知识并且不从经验中学习。它有时会犯一些简单的推理错误这些错误似乎与许多领域的能力不相符或者过于容易受骗接受用户的明显错误陈述。它可以像人类一样在棘手的问题上失败比如在它生成的代码中引入安全漏洞。 GPT-4的预测也有可能是错误的当它可能出错时它没有仔细检查工作。有趣的是预训练的模型是高度校准的(它对答案的预测置信度通常与正确的概率相匹配)。然而经过后训练过程后校准降低了(图8)。 GPT-4在输出中有各种偏差我们已经努力纠正但需要一些时间来完全描述和管理。我们的目标是使GPT-4和我们构建的其他系统具有合理的默认行为这些行为反映了广泛的用户价值观允许这些系统在一些广泛的范围内进行定制并就这些范围应该是什么获得公众的输入。详见OpenAI[68]。 6、风险和缓解 我们投入了大量的精力来提高GPT-4的安全性和一致性。在这里我们强调了我们使用领域专家进行对抗性测试和红队以及我们的模型辅助安全管道[69]以及相对于先前模型的安全度量的改进。 超过50名来自领域专家的专家如长期AI校准风险、网络安全、生物风险和通过领域专家进行的对抗性测试:GPT-4带来了与较小的语言模型类似的风险例如生成有害的建议、有bug的代码或不准确的信息。然而GPT-4的额外功能导致了新的风险面。为了了解这些风险的程度我们让国际安全部门对模型进行了对抗性测试。他们的发现特别使我们能够在高风险领域测试模型行为这些领域需要利基专业知识来评估并评估与非常先进的人工智能(如权力寻求)相关的风险[70]。从这些专家那里收集的建议和培训数据为我们对模型的缓解和改进提供了依据;例如我们已经收集了额外的数据来提高GPT-4拒绝如何合成危险化学品请求的能力(表5)。 模型辅助的安全管道:与之前的GPT模型一样我们使用强化学习和人类反馈(RLHF)[40,63]对模型的行为进行微调以产生更好地符合用户意图的响应。然而在RLHF之后我们的模型在不安全输入上仍然很脆弱有时在安全输入和不安全输入上都表现出不希望看到的行为。在RLHF管道的奖励模型数据收集部分当对标签器的指令未指定时就会出现这些不希望出现的行为。当给出不安全的输入时模型可能会生成不受欢迎的内容例如给出犯罪建议。此外模型也可能对安全输入过于谨慎拒绝无害的请求或过度对冲。为了在更细粒度的级别上引导我们的模型走向适当的行为我们在很大程度上依赖于我们的模型本身作为工具。我们的安全方法包括两个主要组成部分一套额外的安全相关RLHF训练提示以及基于规则的奖励模型(RBRMs)。 我们基于规则的奖励模型(RBRMs)是一组零概率GPT-4分类器。这些分类器在RLHF针对正确行为(例如拒绝生成有害内容或不拒绝无害请求)进行微调期间向GPT-4策略模型提供额外的奖励信号。RBRM有三个输入:提示(可选)、策略模型的输出和人类编写的用于如何评估输出的规则(例如一组多项选择风格的规则)。然后RBRM根据标题对输出进行分类。例如我们可以提供一个规则指示模型将响应分类为:(a)期望风格的拒绝(b)不期望风格的拒绝(例如逃避或漫无伦次)©包含不允许的内容或(d)安全的非拒绝响应。然后在安全相关的训练提示集上我们可以奖励GPT-4拒绝这些请求的有害内容例如非法建议。相反我们可以奖励GPT-4因为它没有拒绝对保证安全和可回答的提示子集的请求。该技术与Glaese等人[71]和Perez等人[72]的工作有关。这与其他改进相结合例如计算最佳RBRM权重和提供针对我们想要改进的领域的额外SFT数据使我们能够引导模型更接近所需的行为。 安全度量的改进:我们的缓解措施显著改善了GPT-4的许多安全属性。与GPT-3.5相比我们已经将模型对不允许内容请求的响应趋势(表6)降低了82%并且GPT-4根据我们的策略对敏感请求(例如医疗建议和自我伤害表7)的响应频率提高了29%(图9)。在RealToxicityPrompts数据集[73]上GPT-4仅产生0.73%的有毒生成时间而GPT-3.5产生有毒内容的时间为6.48%。 总的来说我们的模型级干预增加了引发不良行为的难度但这样做仍然是可能的。例如仍然存在“越狱”(例如对抗性系统消息参见系统卡中的图10以了解更多细节)来生成违反我们使用指南的内容。只要这些限制存在就有必要使用部署时安全技术(如监控滥用和用于快速迭代模型改进的管道)来补充它们。 GPT-4及其后续型号有可能以有益和有害的方式对社会产生重大影响。我们正在与外部研究人员合作以提高我们对潜在影响的理解和评估以及对未来系统中可能出现的危险能力进行评估。我们将很快发布关于社会为应对人工智能影响可以采取的措施的建议以及预测人工智能可能产生的经济影响的初步想法。 7、结论 我们描述了GPT-4一个在某些困难的专业和学术基准上具有人类水平表现的大型多模态模型。GPT-4在NLP任务集合上优于现有的大型语言模型并且超过了绝大多数报道的最先进的系统(通常包括特定于任务的微调)。我们发现虽然通常用英语来衡量能力的提高但可以用许多不同的语言来证明。我们强调了可预测的扩展如何使我们能够对GPT-4的损耗和能力做出准确的预测。 GPT-4由于性能的提高而带来了新的风险我们讨论了一些方法和结果以了解和提高其安全性和对齐性。虽然还有很多工作要做但GPT-4代表着朝着广泛有用和安全部署的人工智能系统迈出了重要一步。
http://www.dnsts.com.cn/news/87035.html

相关文章:

  • 苏州建网网站优化软件排名器
  • 制作网站开发多少钱vue做的网站域名汇总
  • 一个成功的网站必须具备个人网站做音乐网要备文化
  • 湖北省节能建设网站石排网站仿做
  • 网站站长统计代码免费用搭建网站
  • 做的网站为什么图片看不了怎么办东营seo网站建设费用
  • 武隆集团网站建设品牌建设思维导图
  • 网站建设需要怎么选合作机构公司网站服务器租用
  • 皋兰县城乡和住房建设局网站杭州企业做网站
  • 建设网站的目的和功能龙岩网络营销平台
  • 网站建设策略书wordpress 目录页
  • 设计网站登录框ps怎么做长春网络哪家好
  • 怎么在移动端网站下面做联系人杭州互助盘网站开发
  • 外贸询盘网站长春个人网站制作公司
  • 内蒙建设工程信息网站万网一台虚拟主机做多个网站
  • 做代理去哪个网站找wordpress 加描述 2017
  • 惠州市博罗县建设局网站高校二级网站建设意义
  • 手机wap网站大全互动平台表示公司帮助国内客户进行新冠药物研发
  • 商务网站开发与建设论文怎么用别人网站做模板
  • 移动宽带 怎么建设网站做个企业网站
  • 免费行情软件app合集北京搜索引擎优化主管
  • WordPress站内跳转设置wordpress 设置导航
  • 建设工程消防备案凭证网站wordpress伪静态
  • 有哪个网站可以查别人做没做过牢吗做网站后开办会员
  • 有没有专门做毕业设计的网站WordPress模板cms
  • 泉港区住房和城乡规划建设局网站网站建设费是广告费吗
  • 惠山区住房和建设厅网站百度商业平台官网
  • 西安网站维护公司免费行情软件app网站大全
  • 网站建设js是什么中国手工加工网免费供料
  • 中国建设银行网站股份结构变化国内哪家公司做网站最好