网站开发要,企业管理培训课程推荐,新农村建设管理网站,北京网站sem、seo由于篇幅原因#xff0c;本文分为上下两篇#xff0c;上篇主要讲解语言模型从朴素语言模型到基于神经网络的语言模型#xff0c;下篇主要讲解现代大语言模型以及基于指令微调的LLM。文章来源是#xff1a;https://www.numind.ai/blog/what-are-large-language-models 四、现… 由于篇幅原因本文分为上下两篇上篇主要讲解语言模型从朴素语言模型到基于神经网络的语言模型下篇主要讲解现代大语言模型以及基于指令微调的LLM。文章来源是https://www.numind.ai/blog/what-are-large-language-models 四、现代语言大模型
Transformer的发明标志着现代LLM时代的开始。 自2018年以来 AI实验室开始训练规模越来越大的模型。令众人惊讶的是这些模型的质量也在不断提高下图对这些模型进行了可视化我们将重点介绍其中值得关注的模型 LLM进化树。来源https://github.com/Mooler0410/LLMsPracticalGuide 这些语言模型主要分为三类。一是“仅编码器encoder-only”组上图中的粉色部分该类语言模型擅长文本理解因为它们允许信息在文本的两个方向上流动。二是“仅解码器decoder-only”组上图中的蓝色部分该类语言模型擅长文本生成因为信息只能从文本的左侧向右侧流动以自回归方式有效生成新词汇。三是“编码器-解码器encoder-decoder”组上图中的绿色部分该类语言模型对上述两种模型进行了结合用于完成需要理解输入并生成输出的任务例如翻译。 这一切都主要始于文本理解类模型。最初是使用RNN的ELMo之后是谷歌著名的BERT模型及其派生模型如RoBERTa它们都基于Transformer。这些模型通常具有几亿个参数相当于约1GB的计算机内存在大约10GB到100GB的文本上进行训练通常为几十亿个单词并且可以在现代笔记本电脑上以约0.1秒的速度处理一段文本。这些模型极大地提升了文本理解任务的性能如文本分类、实体检测和问题回答等。 这已然是NLP自然语言处理领域的一场革命不过才刚刚拉开序幕…… 在文本理解类语言模型发展的同时OpenAI开始基于Transformer创建文本生成类语言模 型。首先是2018年的GPT-1有1亿个参数然后是2019年的GPT-2拥有高达15亿个参数并在40GB的文本上进行了训练。至少对我来说GPT-2的创建是一个至关重要的时刻。以下是GPT-2可以生成的文本示例从一个由人类撰写的段落开始 来源https://cdn.openai.com/better-language-models/language_models_are_unsupervised_multitask_learners.pdf 生成的英语文本质量很不错而且具有连贯性。例如科学家的名字没有改变而这在基于RNN的模型中是个经典问题。由于GPT-2在所生成文本的质量上取得了巨大突破为避免滥用OpenAI最初决定不向公众发布。可以说GPT-2标志着LLM正朝着正确的方向发展。 需要注意的是使用这类语言模型需要先提供一个起始文本这个起始文本被称为提示prompt。 一年后2020年OpenAI创建了GPT-3。GPT-3是一个具有1750亿个参数的模型需要700GB的计算机内存来存储模型该模型不仅规模显著扩大文本生成质量也有重大改进。除了性能的提升外GPT-3还让人们对未来如何使用LLM大开眼界。 首先GPT-3能够编写代码。例如 你可以使用GPT-3来生成非常简单的网站只需在提示中描述网站的外观即可。以下是一个示例让GPT-3使用HTML创建一个按钮 这些基本的编码能力在当时并不十分实用 但它们的出现意味着软件开发在未来可能会发生根本性转变。 GPT-3另一令人瞩目的能力是能够进行上下文学习 它可以通过提示中所展示的示例来学习如何执行任务。这意味着你可以通过编写提示来定制LLM而无需更改它们的权重。这一能力开辟了一种全新的、完全基于提示的自然语言处理方式如今十分受欢迎。 总而言之GPT-3展示了“提示”作为一种新方式的潜力可以让机器通过自然语言按照我们的意愿执行任务。 注意GPT-3比GPT-2要大得多。 自2018年以来模型的规模急剧增加。以下是一些值得关注的LLM及其规模 在两年时间里模型参数的数量增加了1000倍目前最大的模型如GPT-4已接近1万亿个参数这是因为模型规模的增加与性能的改善密切相关并且目前还未达到性能瓶颈。这些模型规模十分庞大与人脑相比人脑约有1000亿个神经元每个神经元平均与其他1000个神经元相连接总共约有100万亿个连接。从某种意义上说最大的LLM仍然比人脑小100倍。当然这只是一个非常宽泛的比较因为人脑和当前LLM使用的架构和学习方法都截然不同。 另一个有趣的指标是这些模型在训练阶段所“阅读read”的单词数量。 如你所见 数量十分庞大。这些模型在训练过程中会接触超1000亿个单词是一个人在一生中听到或阅读单词数量的100倍以上这显示出神经网络与人脑的不同之处神经网络的学习速度比人类慢得多但可以获得比人类接触的多得多的数据。 需要注意的是 LLM在训练过程中所接触到的单词数量并未像参数数量那样迅速增长从GPT-1到GPT-3只增长了3倍。这是因为优先考虑模型规模不过结果证明这是一个小小的失误。最新的模型并没有比GPT-3大很多但通过处理更多单词来进行训练。 这种对数据的渴求导致了一个问题 即可用文本的总量存在硬性限制约为数万亿个单词而模型正在接近这一限制。虽然仍有可能循环遍历所有文本但这会导致模型性能的回报递减。总而言之可得出结论网络在训练阶段处理的有效限制是几十万亿个单词比GPT-4的数量约多出10倍。 另一个问题是 通过用更多的数据训练更大的模型计算成本也在增加。以下是训练上述模型的预估计算成本 为显著超越当前模型的性能下一代模型需要耗费数亿美元的计算资源。虽然考虑到这些模型能带来的好处这一成本是合理的但如此巨大的花费仍然是一个问题。 模型的扩展变得越来越困难。幸运的是扩大规模并不是改进LLM的唯一途径。2022年末一项创新开启了另一场革命这次的影响远远超出了NLP领域。 五、指令调优和聊天机器人LLM GPT-3揭示了提示的潜力但撰写提示并不容易。事实上传统语言模型经训练可以模仿其在网络上看到的内容。 因此要想创建一个好的提示你必须清楚网络上哪种起始文本可能会引导模型生成你所期望的结果。这是一种奇怪的游戏也是一种找到正确表述的艺术你需要改变措辞假装自己是专家展示如何逐步思考的示例等等。这一过程叫做提示工程 这使得使用这些LLM变得困难。 为解决这个问题研究人员一直在探索如何修改基础LLM以让其更好地遵循人类指令。现在主要有两种方法一是使用人类编写的指令-回答对instruction-answer pairs并在此数据集上对基础LLM进行微调即继续训练。二是让LLM生成几个可能的答案然后由人类对答案评分并使用强化学习在此数据集上对LLM微调。这就是著名的RLHF人类反馈的强化学习的过程。此外我们还可以将两种方法相结合OpenAI在InstructGPT和ChatGPT中就对这两者进行了结合。 InstructGPT和ChatGPT的指令调整步骤。来源 https://openai.com/blog/chatgpt修改自https://arxiv.org/abs/2203.02155 将这两种技术结合在一起可以得到一个经过指令调整的LLM。调整后的LLM比基础模型更擅长遵循人类指令使用起来更加容易。 经过指令调整的LLM已经非常出色了但还有最后一步才能将这些LLM真正转化为每个人都可以使用的东西——聊天机器人。 OpenAI在2022年12月发布了ChatGPT一个基于GPT-3.5的聊天机器人。它的创建方式与InstructGPT相同但这次使用的是整个对话而不仅仅是指令-回答对。 ChatGPT发布后基于LLM的新型聊天机器人开始层出不穷。 OpenAI使用GPT-4来代替GPT-3.5对ChatGPT进行了改进Anthropic发布了ClaudeGoogle推出BardMeta也 研发出了LLaMA还有几个开源LLM正在发布过程中。这是一次真正的模型大爆炸将会带来许多令人兴奋的应用NuMind也会为此出一份力。 ChatGPT发布两个月后迅速拥有了上亿用户成为有史以来用户增长最快的产品。人们用ChatGPT来根据要点编写电子邮件、重新组织文本、总结文本、编写代码或学习东西在此之前搜索引擎一直垄断着这项任务。ChatGPT的发布是LLM发展史的转折点它让 人们意识到了LLM的潜力引发了“AI竞赛”世界上主要人工智能实验室和初创公司都参与其中。 值得注意的是 LLM的突然普及也引发了人们的担忧。人们担心LLM被有心人利用做一些有害的事情所以创建开放式LLM聊天机器人必须确保它们的“安全”性或“与人类价值观保持一致”也就是说它们不能帮助制造炸弹等。目前有一些方法可以绕过聊天机器人的安全防御措施但随着时间推移这些安全措施会逐渐完善想绕过它们将变得十分困难。 六、语言大模型的未来 近年来 LLM取得了很大进步人们对它的热情达到了空前高度在这一领域投入了大量精力。那么LLM的未来将如何发展虽然预测未来很难但我们也有一些看法 模型大小和训练规模将继续扩大。扩展在过去取得了非常好的效果且仍有提升空间但问题是模型的训练成本急剧增长逐渐让人望而却步1亿美元。更好的GPU和新的专用硬件有助于扩展模型规模但它们的开发和生产需要时间。此外最大的模型已经迭代了所有书籍和整个网络这意味着我们正在达到可用训练数据的极限即“词元危机”。 因此可以肯定的是在未来几年内参数数量不会像过去那样出现爆发式增长。最大的模型今年应该会稳定在1万亿参数以下规模 然后以每年50%的速度增长。 LLM将超越纯语言模型将图像和视频纳入训练数据成为多模态模型。从图像和视频中学习可能有助于模型更好地理解世界。GPT-4就是在图像和文本上进行训练的且取得了少许性能提升。利用视频数据训练LLM可能给这一领域带来质的改变但这需要大量计算。预计还需两年多的时间才能真正实现利用视频训练“语言”大模型。 扩大规模、实现语言模型向多模态模型的转变需要大量算力。为缓解这一问题我们可以采用更好的神经架构和训练程序这些架构和训练程序要么计算强度较低要么可以用更少的数据进行学习人类大脑证明这是可能的。然而更可能的是类似于RNN的内存会卷土重来因 为这种内存运行时的效率非常高例如最近的RWKV架构。 此外还可能有一些更大的变化 例如LLM不以自回归的方式生成而是以自上而下的方式 生成例如在生成单词之前做出随机决定这种做法可能更合乎逻辑这就是神经网络目前生成图像的方式。到底何时会开发出这样的新架构/方法还很难说但我们预计应该就 在未来几年一旦开发出来 LLM模型的性能将得到大幅提升。 另一个改进方向是继续进行指令调优让更多人参与到“教育”LLM即与AI对齐的过程中。这可以由私人AI实验室来实现也可以是一个更像维基百科的众包项目以改进和对齐开放模型的LLM能力。在这个问题上我们还是希望偏离传统的RLHF而是让人们与模型对话来进行教导就像我们对待孩子一样。我不确定这种项目的具体时间线但我已经思考了一段时间非常希望看到它的实现。 上文我们只讨论了改进实际模型的方法但实际上有一些方法可以在不改变模型的情况下改进LLM。方法之一就是为LLM提供工具。这种工具可以是用于查找准确信息的搜索引擎或者是用于进行基本数学计算的计算器。此外它还可以是一个结合了推理引擎符号人工智能的经典组件的知识库如Wolfram Alpha用于查找事实、进行逻辑推理或其他神经网络不擅长的计算。当然这个工具还可以是一个用于编写和运行代码的完整编程环境。LLM可以通 过生成触发API调用的特殊词元单词来使用这些工具 然后将API的输出插入到生成的文本中。 LLM使用工具示例。来源https://arxiv.org/abs/2302.04761 上述趋势实际上已经开始了例如ChatGPT插件、LangChain库和Toolformer论文我相信这些工具将成为LLM的核心。 改进LLM的另一个方法是以更智能的方式使用它们让它们更好地完成任务。这可以通过巧妙的提示或更高级的程序来实现。比如说我们可以让LLM按步骤进行思考即思想链提示chain-of-thoughts prompting并提高LLM在逻辑任务上的表现。以下是提示LLM按步骤思考的示例 思维链提示示例。来源https://arxiv.org/abs/2201.11903 同样地我们可以要求LLM反思、批判自己的输出并对其进行迭代修改。 通过迭代我们可以显著提高LLM性能 尤其是生成代码方面的性能。我们还可以更进一步创建完全自主的智能体这些智能体可以管理任务列表并迭代任务直到达到主要目标请参考AutoGPT和BabyAGI。目前这些自动化智能体的运行效果并不理想但它们的效果会逐步提升很难说这些自动化智能体会发展到何种程度对LLM产生何种影响。 由于LLM可以通过这些程序思想链、迭代批评等 改进答案因此我们可以使用这些程序创建指令-答案对然后在指令-答案对上按顺序对LLM微调以提高其性能。这种自我完善是可能的参见https://arxiv.org/abs/2210.11610我相信它具有很大的潜力。例如我们可以想象模型为了变得更加自洽而与自身进行讨论这是一种自我反思过程。可能会进一步提升LLM的表现。 LLM可能还有其他改进方向 总的来说我们无法确定LLM的未来但显然它们将继续发展下去。理解和生成文本的能力使LLM成为了一项基本技术。即使在目前的发展情况下LLM也将解锁大量应用程序日常工作中的数字助理就是一个很好的例子更疯狂的是LLM甚至可能引导我们创造某种超级智能。