服务器创建wordpress,网站优化工具,哈尔滨网站建设q479185700惠,中国生态文明建设的意义和目标来源 | The Robot Brains Podcast OneFlow编译 翻译#xff5c;宛子琳、杨婷 9月26日#xff0c;OpenAI宣布ChatGPT新增了图片识别和语音能力#xff0c;使得ChatGPT不仅可以进行文字交流#xff0c;还可以给它展示图片并进行互动#xff0c;这是一次ChatGPT向多模态进化的… 来源 | The Robot Brains Podcast OneFlow编译 翻译宛子琳、杨婷 9月26日OpenAI宣布ChatGPT新增了图片识别和语音能力使得ChatGPT不仅可以进行文字交流还可以给它展示图片并进行互动这是一次ChatGPT向多模态进化的重大升级。 OpenAI联合创始人ChatGPT架构师John Schulman此前认为添加多模态功能会给大模型带来极大的性能提升。“如果扩展出现边际收益递减那么添加多模态就能让模型获得文本中无法获得的知识并有可能掌握纯语言模型无法完成的任务。例如通过观看与物理世界甚至是与电脑屏幕互动的视频模型能获得巨大收益。” 在负责ChatGPT之前Schulman是深度强化学习的早期先驱之一他发明了广泛应用的近端策略优化算法PPO这实际上也是ChatGPT训练的一部分。他还发明了信任区域策略优化TRPO对OpenAI Gym、OpenAI Benchmark以及现代深度学习时代的许多元学习算法作出了重要贡献。 在创立OpenAI之前加入OpenAI之前Schulman在加州大学伯克利分校攻读博士学位一开始主要研究机器人技术随着深度学习兴起转而研究强化学习其导师正是强化学习领域的领军人物Pieter Abbeel。 近期John Schulman与Pieter Abbeel就ChatGPT的构建过程及方法、能力、局限等模型细节展开了详细探讨并展望了语言大模型向多模态模型进化的发展方向。此外Schulman还分享了自己一路走来的研究历程与经验。 以下内容经授权后由OneFlow编译发布转载请联系授权。视频https://www.youtube.com/watch?vnM_3d37lmcM 1 ChatGPT的构建 Pieter AbbeelChatGPT给我留下了深刻印象。我曾向ChatGPT输入过一段关于某公司的演讲然后要求ChatGPT用一段话来描述该公司完成以后我进一步要求ChatGPT以Snoop Dogg西岸说唱巨星Snoop Lion原名Snoop Dogg风格来描述该公司。尽管Snoop Dogg从来没有写过关于这家公司的说唱内容但ChatGPT很好地完成了任务。ChatGPT的能力让我震惊我不禁想知道这种模型是如何构建的。 John Schulman训练ChatGPT有以下几个步骤。首先从预训练的语言模型开始训练模型模仿大量由人类撰写的文本。我们希望模型能够像人类一样使用语言为此需要大量文本数据我们从互联网上搜集到了大量文本并训练模型生成类似文本。在训练过程中模型根据之前的文本预测下一个词通过大量训练得到一个预训练的语言模型但它只能生成类似于互联网上的随机文本其中有些符合要求有些则不符合。为了训练模型生成更加一致且专业的内容我们需要对模型进行微调。 微调有两个步骤第一步是监督学习在这一步我们会使用雇佣人员撰写的高质量回应来训练模型。第二步是强化学习以进一步改进模型。在这一步我们训练了一个奖励模型来识别好的回应并使用该模型进行强化学习训练。 Pieter Abbeel用奖励模型进行强化学习也就是通过奖励评估机器人生成的文本并试图将获得的奖励最大化。那么是否有可能生成一种文本生成能力超越人类的聊天机器人呢 John Schulman当然可以。在某些方面模型已经具备了超越人类的能力但在其他方面可能还有待提升。例如如果以速度作为能力的衡量标准这些模型在撰写诗歌或创作Snoop Dogg风格的歌词等方面比人类快得多。总之我们不能用单一的指标来衡量模型的智能程度它们在某些方面已经超越了人类比如知识的广度以及写作风格的多样性等但模型在其他方面的能力仍有待提升。 Pieter Abbeel模型在哪些方面还有待提升 John Schulman虽然模型在某些任务上表现出色但在数学推理等任务上它们的表现远不及熟练的人类。例如在需要长时间运算的任务中聊天机器人往往难以有效执行任务即使输入的提示很详细谨慎并告知模型可以采取多个步骤它们也经常会在运算过程中陷入困境无法顺利完成任务。 Pieter Abbeel说实话人类同样需要一段时间才能熟练掌握数学大多数人无法真正达到顶尖数学家的水平。那么目前模型在数学等方面的应用是否只是开始它们的表现是否会逐步提升 John Schulman模型在数学方面的表现会越来越好。目前我们还难以确定模型所面临的根本限制只知道确实有一些限制因素的存在例如没有足够的执行机制只能生成文本无法实际执行任务等。但这些都是可以克服的表层限制不是关键所在。当前的模型还不够智能无法进行高质量的创造性思考也无法进行数学和科学等方面的工作。实现这些目标还需要一定时间目前我们还不确定具体需要多长时间以及模型的具体发展方向。 Pieter Abbeel语言模型早就出现了但直到ChatGPT爆火语言模型才真正走进大众的视野人们与ChatGPT之间的互动热度是之前的语言模型无法企及的。你在开发ChatGPT及其前身InstructGPT并在其中引入强化学习组件时是否预料过会出现这种情况 John Schulman我确实认为ChatGPT的聊天界面比之前的模型更便捷易用具有更大潜力然而我并没有预料到它会如此受欢迎。最初我认为ChatGPT可能只适用于某些特定领域可以使用InstructGPT来制作聊天机器人我们只需向InstructGPT输入正确的提示然后它就会像聊天机器人一样运行并且还能得到不错的结果。 最初发布时ChatGPT的运行结果和InstructGPT类似但ChatGPT更具自我意识能理解自身局限幻觉更少。Instruct模型主要用于生成连续文本和进行写作测试其中具有一定的幻觉成分这是InstructGPT的特点之一。在某种程度上ChatGPT可能比之前的模型略好但并没有显著提升。因此我也没有意料到它会如此成功。 2 幻觉成因及解决方法 Pieter Abbeel你提及ChatGPT可能会产生幻觉那么幻觉到底是什么呢它的成因是什么如何避免模型出现幻觉 John Schulman幻觉是指模型会编造并输出一些看似合理的文本这些文本可能包含虚构的内容、数字或引用。我们可以这样理解模型的幻觉现象模型具有一定程度的能动性它更关注表达的正确或以合适的风格书写并输出内容准确性则次之。 考虑到最大似然性目标模型的这种选择是显而易见的在这种情况下模型不会太关注输出内容的正确与否而是更看重听起来正确或看起来合理因此以简单方式训练出的模型常常会产生幻觉。通过微调和人类反馈我们可以显著减少幻觉的输出但无法完全消除。免费模型带有较多幻觉基于GPT-4模型的幻觉输出较少但仍偶尔出现特别是当涉及模型未经训练、未察觉到的特定限制时。 Pieter Abbeel“模型未经训练未察觉到的特定限制”是不是意味着我们可以训练模型识别这些限制 John Schulman我们可以训练模型让模型意识到特定限制的存在。例如早期模型对自身的能力一无所知当你问它能否给某人发送电子邮件时它可能会回答“是的我刚刚发送了那封电子邮件”然后我们再针对这种特定类型的查询继续训练让它学会回答“不我无法发送电子邮件”。也就是说我们可以采用分阶段的过程教授模型一些它无法做到的特定限制模型会对此进行泛化。 GPT-4是一个非常智能的模型它的泛化能力很强如果你告诉它一些不能完成的事它通常能就此推断出很多其他超出自己能力的事。但这种方法并不完美例如在引用方面模型掌握了大量特定书籍和重要的论文知识如果要求模型提供这方面的引用有时它能给出有用的正确答案。所以在写作过程中我们更倾向于让模型提供答案。 因此模型会认为自己在某种程度上能够提供引用但它对于这些引用的自信程度并没有很好的内部感知这就导致模型有时会编造引用。模型也许知道自己编造了引用内容也许不知道所以有时你可以问它对此是否确定。我们还不太清楚模型的这些能力以及模型对自身限制的感知是如何泛化的这是一个很有意思的研究课题。 Pieter Abbeel关于引用在模型事先阅读过整个互联网内容的情况下与其让模型提供引文不如让模型在实时检索中获取相关信息。你是如何权衡检索和训练模型权重这两种方法的呢 John Schulman两种方法都有其适用场景目前我们正在将两种方法进行结合。我们在ChatGPT中使用了一种浏览模型它可以从网上查找信息尽管最近我们暂时关闭了这一功能但后续会恢复。我认为模型可以在权重中存储大量信息包括非常详细的事实知识。如果将信息存储在权重中模型就可以灵活使用这些信息例如利用这些信息建立事物之间的联系这时就算你提出一个与某件事模糊相关的问题模型也可能会成功建立在搜索查询中难以建立的联系。因此将信息存储在权重中可以让模型更加智能、灵活。 检索也有其自身的重要优势。首先检索可以实时访问信息相比将信息储存在权重中检索可以提供更多细节。其次检索输出更易于人工验证。在模型训练和用例测试阶段保证模型输出的可检测性非常重要。因为模型的知识范围非常广泛人们对模型输出结果进行评分时可能面临评分人员对该主题缺乏了解的情况这会导致评分困难。因此如果模型能够提供引用来源这将大大提升监督评估的准确性。因为模型有时会输出幻觉所以对于终端用户而言验证语言模型的输出对于处理幻觉大有助益。 Pieter Abbeel大多数语言大模型只进行单次迭代训练single Epoch training也就是只对数据进行一次训练。模型是如何只进行一次遍历就记住这些具体的信息在进行一次遍历时如何通过仅进行一次梯度更新来记住特定引文并将其存储下来 John Schulman语言模型对预训练数据信息的吸收程度确实让人惊讶。很多既定事实往往会多次出现在互联网的不同文档中如果某一事实只出现在一个文档中那么模型可能无法回想起这个事实至少当前模型是这样的。关于模型需要看到特定事实多少次才能真正记住它并内化目前还没有确切答案可能需要几十次。 3 探索LLM能力的新方法 Pieter Abbeel显然这些模型是在大量数据上进行训练的。最近Sam Altman提到随着模型规模不断扩大继续增加训练数据、扩大模型规模已经难以继续提升模型性能这意味着数据和规模能带来的机会不多了。对此你怎么看 John Schulman确实现有数据和模型规模扩展方法能带来的性能提升可能在一段时间后达到极限算法、数据集、数据集大小以及算力能带来的提升将逐渐递减但我们距离这种情况的出现还有一段时间在此之前能做的还有很多。 Pieter Abbeel在未来我们是否会继续依赖人类反馈来筛选文本数据是否需要引入其他元素比如通过让模型观看视频以更好地理解物理世界或者让模型使用模拟器来体验物理世界的感觉引入新元素是否可以将模型推向更高水平相对于增加更多现有类型的数据这些新元素的引入是否与模型的性能提升不太相关 John Schulman我认为添加多模态功能会带来极大的性能提升。如果扩展出现边际收益递减那么添加多模态就能让模型获得文本中无法获得的知识并有可能掌握纯语言模型无法完成的任务。例如通过观看与物理世界甚至是与电脑屏幕互动的视频模型能获得巨大收益。所有软件都是为人类设计的如果模型能够观察像素并理解视频我们就可以使用各种现有软件或帮助人们使用这些软件。为模型赋予新能力让模型与新事物互动将大大增强模型的实际能力。 此外通过更加智能微调纯语言模型还能完成很多任务。基于人类反馈的强化学习也还有很多提升空间与其依赖于在人类数据上训练的奖励模型不如利用模型自身来进行评估。 Pieter Abbeel这让我想起了生成对抗网络GAN生成对抗网络有两个模型一个用于训练另一个用于生成更真实的任务。但在原始GAN中模型通常生成的是图像这听起来与微调非常相似但微调可能会降低模型的泛化能力和展示知识的广度。这种情况是否属实如果属实这一过程是如何发生的 John Schulman这种情况的确存在。对模型进行微调时会减少其输出风格和内容类型的多样性导致模式崩溃mode collapse或熵崩溃entropy collapse在某些情况下模型会输出一组非常狭窄或单一的答案。 如果让语言模型比如ChatGPT讲笑话模型很可能会不断输出同一个笑话比如“为什么科学家不相信原子因为原子“编造”了一切原文为“because atoms make up everything”其中“make up”既有“构成”又有“编造”、“虚构”之意”等老掉牙的笑话或者一些类似的无趣笑话模型会一直沿用下去。总之这种模式崩溃效应确实会出现。 Pieter Abbeel在进行微调时模型的能力可能也会有所下降。 John Schulman这是因为在预训练时使用了更大批次的数据同时要确保在各种类型的大量输入中保留模型的全部能力。然而在微调时你只能看到一个小得多的数据集因此可能丢失了一些在微调数据集中未被充分呈现的能力。同时微调过程中可能会出现更多噪音受噪音影响模型性能可能会略微下降。 因此微调的确会导致模型性能的略微下降。我们对模型进行了各种基准测试并与预训练的基础模型进行了比较尽量抑制模型能力的下降。不过可以肯定的是在最新配置下模型的性能下降并不严重。 4 闭源还是开源 Pieter Abbeel目前在AI领域除ChatGPT外还有很多包括开源模型在内的其他模型。你如何看待开源和闭源模型 John Schulman 开源模型对于学术研究价值非凡学术研究者可以对模型进行微调、更改架构还可以通过人类反馈改进强化学习等强大的开源模型使这类研究成为可能。目前闭源模型在技术上则更具优势是目前已知最好的模型。显然在没有商业因素刺激且非闭源的情况下我们很难激励人们开发出真正优质的模型因此我预计性能最佳的模型会是闭源的。但开源模型更有利于学术研究等活动也可能会出现很多优秀的商业用例因为人们能根据自己的数据对模型微调这是当前商业模型供应商无法提供的。 Pieter Abbeel如果要构建开源模型获取高质量的数据和大量计算资源可能非常困难 John Schulman没错。开源模型无法获利因此难以获得大量投资。所以尽管开源模型具有极大的公益价值但它不会是SOTA模型。另外开源还面临着一些安全方面的顾虑例如有人利用开源模型进行超大规模的垃圾信息传播这种行为是API供应商所不允许的。鉴于上述问题Meta等开源模型公司需要慎重对待开源问题但开源模型未来的具体发展走向还有待观察。 5 LLM主导地位及前景 Pieter Abbeel现在语言模型在对话中已经占据了主导地位与其他领域相比语言模型取得了多次重大突破其快速增长的能力引发了广泛讨论。未来其他领域是否会出现类似的重大飞跃如果有会出现在什么领域 John Schulman我无法准确预测什么领域会出现重大突破。但我认为类似于语言大模型的核心技术将成为许多领域的基石从而在不同模态间构建关联例如将语言大模型与视觉、视频等结合从而实现更多功能。这正是语言模型的巨大优势因为语言的信息密度相比其他类型的数据例如视频要高包含的噪音较少。因此未来相当长的一段时间内语言都会是一种良好媒介能够在有限的计算资源下承载大量智能。 然而我认为语言与其他模态之间存在着相互渗透的趋势。我们可能会看到人们将语言与视频等多种模态相融合甚至可能将语言与机器人技术相结合。我预测未来的机器人技术将采用多模态模型这些模型将在语言、视频和控制等方面进行联合训练。我相信这种类型的结合将成为未来人工智能领域的重要发展趋势之一。 还有一些领域虽然与当前训练的模型类型无关但可扩展的超级监督或提高监督质量在这些领域却更具重要性。其中关键在于如何收集某些领域的数据尤其是那些人类难以生成高质量标签或范例的领域。 那么我们如何将人类与机器结合从而创造出高于人类自身产出质量的数据并在真正存在困难的领域实现对模型的监督这是一个有趣且重要的问题很可能会在机器学习研究领域获得更多关注。 Pieter Abbeel我脑海中浮现的例子是一款能进行高效科学研究的AI 它能够阅读人类难以解读的生物数据如蛋白质序列、RNA和DNA序列然后分析实验结果以某种方式将它们结合起来提出新的假设甚至得出人类难以得出的结论。 John Schulman没错。这是一个令人兴奋的研究领域也许有一些类似于生物学的研究领域对人类来说过于复杂但借助人工智能即便它们并不比人类聪明也能更高效地完成工作。因此我们也许可以让模型在生物学中筛选大量复杂数据并从中得出有价值的结论。 6 研究生涯与心得 Pieter Abbeel我对你的职业发展轨迹非常感兴趣最初在我的实验室中你主要研究模仿学习和机器人领域后来你意识到了强化学习的发展潜力于是你在OpenAI花了大量时间对其进行研究并将其引入到语言模型领域。那么从现在回溯过去你是从何时开始关注语言模型的原因是什么 John Schulman大约在GPT-2时期当时人们逐渐意识到了语言模型的巨大潜力认为这一领域值得关注。实际上那时我并没有立即将重心转向语言模型。我当时认为无监督学习在一定程度上已经开始取得成效而训练生成模型是创建具备通用能力模型的非常有效的方法这样的通用模型可以通过微调用于各种下游任务。 当时我对样本效率和强化学习非常感兴趣即研究模型学习新任务的速度这个问题在某种程度上是强化学习的核心甚至可以说是人工智能的核心难题之一。 GPT-2发布后它在许多任务上表现出色比如通过少量示例理解上下文含义同时微调也取得了许多良好结果能够完成各种任务如自然语言基准测试。总之我当时认为我们应该将强化学习领域的模型训练应用于游戏和机器人领域。 也许我们应该训练视频模型然后通过强化学习对其进行微调因此我开始投入相关工作虽然取得了一些成效但在GPT-3时代并没有取得足够令人兴奋的成果。GPT-3的表现更令我惊讶于是我决定将自己的工作和团队的工作重心转向强化学习。尽管我们不是OpenAI第一个自行开发语言模型的团队但我们决定作为强化学习团队朝这个方向发展。 当时我们开展了两个项目一个主要解决数学问题另一个专注于检索和网络浏览利用强化学习来更好地学习如何使用这些工具这就是我进入语言模型领域的契机。我还记得确切的时间应该是2020年或2019年年中。 Pieter Abbeel读博期间你曾转变过一次研究方向由最初的模仿学习教机器人从示例中学习转向了强化学习。当时你在模仿学习方面已经做出了一些成绩为什么要转向强化学习对于大部分研究人员来说自己正在从事的研究方向是否正确是一个关键问题尤其是前期已经在某个课题上投入大量时间的情况下这时候转向相关的全新领域是一项成本较高的决策在新领域取得相同的产出效率之前可能会经历一段适应期这期间也许会进展缓慢。 John Schulman是的。除了最初决定进入机器学习领域以外从机器人转向强化学习是我做过的最大的研究方向调整。转变过后很长一段时间内我都只是做一些简单示例例如实现拼车功能等这种状态持续了六个月左右。很快我意识到需要下定决心之后转变过程逐渐变得顺利这种转变更像是一种连续的过渡比如从一个强化学习领域转向另一个强化学习领域从解决一个问题转向解决另一个问题。一直以来这些转变对我来说都相当自然我认为能够在适当的时机将研究主题切换到强化学习是一种幸运。 Pieter Abbeel至少在深度学习真正发挥作用的当下你参与了将规划与强化学习相结合的一些最早期工作这些工作至今仍是许多人构建和使用的基础包括近端策略优化PPO这可能仍然是至今使用最广泛的强化学习算法。 虽然现在已经过去了七年但你肯定还记得自己的博士时代现在许多博士生都在思考一个问题那就是工业界对科研的影响比如拥有巨额预算的OpenAI来自微软的最新高达100亿美元的投资这笔资金似乎主要用于计算资源可能还包括数据治理等。如此大规模的预算显然在博士生项目中不可能达到因此在OpenAI工作也许能得到博士项目中不可能有的机会也许能在AI领域大显身手。从你的角度出发作为OpenAI的一员你认为是否存在一些无需大规模计算和数据预算但仍能产出令人兴奋的成果的机会 John Schulman根据我偶然看到的一些学术论文上述目标是可以实现的但达成这一目标并不容易。你需要找到不会被工业界赶超且不会被某个新发布的模型所取代的方向。我认为其实有很多符合上述条件的方向比如进行微调、科学调查、深入了解模型的泛化方式或者研究更好的监督方法。开展高质量科学研究的机会有很多我们需要真正深入挖掘、理解事物工业实验室可能更关注结果和创造出更好的产品。无论如何AI领域的博士生们需要进行精细的研究保持好奇心并尽量深入理解这一领域。 Pieter Abbeel你会不会在闲暇时间研究一些自己感兴趣的问题假如我是计算机专业的学生有没有一种流程可以用来识别这些有价值的问题 John Schulman我认为需要找到模型具备哪些能力会令人兴奋但实现这些能力的方法并不完全明确。目前我们在训练模型方面存在一些局限也许并不需要引入新的能力比如让模型进行外科手术等但令人困惑的是我们无法理解模型能力的来源在数据集中的哪个部分。 我认为将模型行为归因于数据集是一个有趣的领域最近在这方面也展开了一些有意思的研究。然而目前的问题是我们预先训练模型然后在不同的数据集上进行微调最终得到了一个模型但我们不确定模型的所有行为都来自于哪里。对于这种情况我们也许可以将感兴趣的未来能力或当前方法的缺点与解决措施相结合并避免那些无需导师的帮助就能得到解决的问题。 Pieter Abbee回顾深度学习的起源当初除少数人之外没有人研究深度学习而之后该领域取得了突破性进展当然其中包含很多合作者的努力。现在每个人都在使用大型数据集训练出的大模型 但在未来可能会是微型数据集虽然模型不会过于微小但可能存在一些尚未发现的方法与我们今天的研究大相径庭。 John Schulman这很有可能成为现实未来也许能够通过更小但更丰富的数据集取得更大的突破。人类学习的数据量并不少我们通过眼睛接收到的数据带宽非常高。尽管与预训练数据集相比人类婴儿接触到的数据非常有限大部分局限于一个房间内但婴儿看到的数据更加丰富。 总之如果你能仅通过微型数据集学习得到非常优秀的视觉系统这将是令人惊叹的成就。所以我认为很可能存在一些新的架构和损失函数能实现这一目标。我们经常倾向于继续追求那些已经取得良好结果且可扩展性强的方法但实际上仍然有很多尚未发现的内容我们可能仍停留在某种特定的局部最优解中很难预测下一个重大突破点在哪里。 当人们谈及Geoffrey Hinton、Yoshua Bengio和Yann Lecun深度学习三巨头在深度学习起源阶段的合作可能存在幸存者偏见。他们三人可能当时正好从事着正确的领域但还有很多人当时正从事其他鲜为人知的领域他们工作的重要性从未得到关注也无法获得认可。 Pieter Abbeel我个人对此不完全赞同但在学术界确实很难做到攻读博士学位的同时开展与工业界同样有趣的研究。若能直接进入工业界你将立即获得更为丰富的资源从而进行更大规模的实验至少能够产出更为显著的成果。以你的个人经历为例你在加州理工学院完成了本科学业后来在伯克利攻读博士学位假设你现在刚从加州理工学院毕业你认为自己会选择继续攻读博士学位还是会直接加入工业研究实验室 John Schulman无论是攻读博士学位还是直接加入研究计划都可能是一个不错的起点这两种选择都有各自的优势和不足。例如博士学位需要更长时间的投入这意味着你可以真正成为某个领域的专家同时作为博士研究生你也可以参与实习等我认为选择攻读博士没什么不好。但如果你选择直接加入实习计划可能自由度相对较低在探索不同领域时可能会受到一些限制因此在这二者之间可能存在一些权衡。我不确定自己会选择哪种方式我认为这两种都不错。 Pieter Abbeel作为在我的实验室中显然是最成功的博士研究生之一许多新学生都会问你是如何进行研究的。作为博士研究生你遵循着怎样的研究方法你的日程安排是怎样的你在项目中的发展轨迹如何是如何推进项目运行的 John Schulman我当时正好具备合适的时间和地点条件因此即便是我自己重新来过也很难完全复现当时确切的初始条件。但我的建议是如果要研究某个领域我会充分阅读相关资料比如详细阅读该领域的论文此外我还会深入学习很多基础内容比如优化和信息理论的相关教材。 就具体问题而言在最初的几年里我基本上遵循实验室的研究方向。我们创造出一些不错的成果但并非是随意地进行研究也尝试着采用一些看起来相对合理的方法。总的来说我试图在其中找到一种自然或合理的平衡我认为启发性问题的确很有价值但在不构建产品的情况下这些问题未必需要解决。最终你可能并不会真正得出一个有用的产品只是希望这些问题能够催生出一个良好的解决方案。 在最初的几年里我努力在各个领域中实现一些令人兴奋的成果随着深度学习的兴起我开始产生类似中年危机的危机感开始反思自己在机器人领域所做的一切是否足够深入我不确定这些方法是否能取得持续性成功因此我开始更加深入地探索并决定转向深度强化学习研究。 这一发展过程相当自然。一开始你会以目标为导向进行工作这个阶段你对于方法可能并不十分了解。在持续研究一段时间后你会逐渐认识到当前范式的局限性这会为下一个范式或是下一个方法导向的研究提供有益思路。 其他人都在看 通向无监督学习之路 ChatGPT成功的秘密武器 英伟达的AI霸主地位会持久吗 大模型长上下文运行的关键问题 PyTorch创始人开源成功的方法论 OpenAI首席科学家直面AGI的可能性 John Schulman通往TruthGPT之路 欢迎Star、试用OneFlow: github.com/Oneflow-Inc/oneflow/http://github.com/Oneflow-Inc/oneflow/