当前位置：首页 > news >正文

网站工具查询pc官网和手机网站

news 2025/11/29 16:27:10

网站工具查询,pc官网和手机网站,2021年电商平台排名,信阳住房和城乡建设局网站参考#xff1a;NLP发展之路I - 从词袋模型到Transformer - 知乎 (zhihu.com) NLP大致的发展历史。从最开始的词袋模型#xff0c;到RNN#xff0c;到Transformers和BERT#xff0c;再到ChatGPT#xff0c;NLP经历了一段不断精进的发展道路。数据驱动和不断完善的端到端的…参考NLP发展之路I - 从词袋模型到Transformer - 知乎 (zhihu.com) NLP大致的发展历史。从最开始的词袋模型到RNN到Transformers和BERT再到ChatGPTNLP经历了一段不断精进的发展道路。数据驱动和不断完善的端到端的模型架构是两大发展趋势。 NLP技术全称为Natural language Processing即自然语言处理技术也就是用计算机来处理人类语言的学科。这一时期最有代表性的方法是词袋模型(Bag of Words, or BOW)即统计文章中每个词出现的频率然后对这个频率的向量进行各种各样的统计分析。比如可以根据正向词汇和负向词汇在文中出现的频率对比来判断文章的情感倾向。或者用词频向量去训练一个分类器做文本分类任务。词袋模型是一个简单有效的办法。即使在普遍使用深度学习的今天这个方法仍有时候被作为快速验证或比较基准来使用。词频向量实际上是将人类语言翻译成了一种机器能看懂的方式有两项信息损失最为突出第一个是词袋模型中每个词都是独立的没有相对的语义关系无法使用词与词之间的关联来更好地帮助分析。第二个是词袋模型完全忽视了语序信息。例如“我很不好”和“不我很好”两句的词频向量完全相同但语义却相反。不过在深度学习出现之后这两个问题都得到了解决。 WordEmbedding: 深度学习解决语义问题 2012年深度学习在ImageNet比赛中碾压了其它传统的机器学习方法拉开了划时代的大幕。深度学习无需手写任何规则而是依赖大量的数据进行训练。简单来说深度学习也就是神经网络是通过给模型看大量的数据并对每次模型输出的结果与正确答案比对让模型自己慢慢调整到正确的方向。由于神经网络的参数远多于一般机器学习模型在较大数据量的训练下可以对数据中复杂的隐含的关系进行更精确的建模因此能够实现其他方法达不到的准确度。 2013年谷歌的研究员Mikolov使用神经网络训练了词向量word embedding有些文献又称“词嵌入”但还是“词向量”更直观一些。研究者使用一个简单的一层全连接的神经网络通过“给出一句话的上文让模型去预测下一个词”的方式去训练。在看过了大量文章之后这个神经网络便可将语言中隐含的语义信息”记“在自己的参数中。比如“我想喝一杯”后文是“水”或是”茶“的概率差不多那么模型对这两个词的参数也会差不多即输出的的词向量也是相似的。这样模型便学会了同义词。词向量的一个重要性质就是这个向量在高维空间中的位置关系即可代表语义的关系。比如相似的词可能会聚拢在一起甚至“法国“与”巴黎”的距离和”英国”与”伦敦”之间的距离都是相似的。 Word2Vec词向量可以抓住不同词之间的相对语义关系 (source: NCAA word2vec lecture notes) 这种给模型喂上文让模型去预测下文的训练方式被称为Language Modeling也就是语言模型或语言建模。这种训练方式不需要人工标注模型结果可以直接和原文对比从而能够利用到海量的数据。这种语言建模的方法后面还会一次又一次地被用到目前实现技术突破的大语言模型也是应用此方法。 RNN: 循环神经网络解决语序问题语义的问题解决之后RNN的出现又解决了语序问题。全连接神经网络是最简单的神经网络模型在此之上又发展出两类主要的变体一个是卷积神经网络(Convolutional Neural Network, or CNN) 和循环神经网络(Recurrent Neural Network, or RNN) 。CNN的输入采用滑动一个固定窗口的方式每次只考虑附近的信息适合处理图像问题能做到又快又好。而RNN的输入是按顺序一个一个接收的在处理完上一个信息之后才会处理下一个信息天然是阅读文章的一把好手。 LSTM(RNN的一种模型)示意图 source: Modeling Genome Data Using Bidirectional LSTM 使用词向量(语义)RNN(语序)的方法成为这一时期的王者在各项NLP通用任务上表现颇为亮眼。研究者们在这一时期的主要工作是在词向量RNN的基本思想上对网络架构进行各种各样的改动用叠加各种buff方式来提升模型的表现。词向量RNN这样的NLP已经相对比较接近人脑处理语言的方式了。然而还是有一个显著的缺陷那就是无法像人一样根据上下文处理多义词的含义。由于词向量的训练方式每个词只能有一个固定的词向量。如果一个词有两个同样常用的但毫不相关的含义那么这个词向量在高维空间内只能处于这两个位置的中间点实际效果就是两边都没法准确建模。语言模型解决上下文问题 ELMo的作者大开脑洞谁说没法处理上下文含义啊语言模型不就是一个天然的、考虑了上下文的模型吗当RNN一个一个吸收完前文再吐出来的最后一个词这个输出显然已经是包含了上文信息的。于是ELMo的作者训练了一个双向的LSTM模型LSTM是RNN的一种。这个模型通过把文章从前往后读一遍再从后往前读一遍来接收上文和下文的信息。然后作者将这个过程中的三层输出进行组合就变成了ELMo词向量Embeddings from Language Models从此我们把文本放进ELMo模型里拿到的输出就可以作为词向量使用。而每次的输入句子不同时即使同一个词的词向量也会有所不同因为ELMo的输出是考虑到了整个句子的信息的。 LSTMLong Short-Term Memory长短期记忆是一种特殊的循环神经网络RNN它被广泛用于解决一些与序列和时序相关的深度学习问题。传统的RNN在处理长序列时会出现梯度消失或梯度爆炸的问题这使得它们无法有效地记住序列中的长期依赖关系。为了解决这个问题LSTM被设计出来。 LSTM的核心思想是通过引入一种称为“门”的机制来控制信息的流动。它有三个主要的门输入门、遗忘门和输出门。这些门可以学习在何时让信息进入、何时让信息保留、何时让信息输出从而有效地解决了长期依赖的问题。具体来说LSTM的工作流程如下遗忘门这个门决定上一时刻的单元状态有多少保留到当前时刻。它会读取上一时刻的输出和当前时刻的输入然后通过一个sigmoid函数输出0到1之间的数值表示保留的比例。输入门这个门决定当前时刻网络的输入有多少保存到单元状态。首先一个sigmoid函数决定哪些值需要更新然后一个tanh函数生成新的候选值这些新的候选值可以被添加到状态中。单元状态这个状态负责在网络中传递信息。首先我们将上一时刻的状态和遗忘门的输出相乘丢弃不需要的信息。然后将输入门的输出和候选值相乘添加到状态中。这样我们就得到了新的单元状态。输出门这个门决定单元状态有多少输出到LSTM的当前输出值。首先一个sigmoid函数决定哪些部分的状态需要输出然后将单元状态通过tanh函数进行处理得到一个在-1到1之间的值并将它和sigmoid函数的输出相乘最终得到LSTM的输出。通过这种方式LSTM可以选择性地记住或遗忘序列中的信息从而可以有效地处理具有长期依赖关系的序列数据。这使得LSTM在许多任务中都取得了很好的效果例如语音识别、自然语言处理NLP、时间序列预测等。 Elmo的三层组合词向量 (source: Analytics Vidhya) 语义解决了语序解决了甚至上下文含义也解决了。从思想上看这时NLP模型越来越接近人类处理语言的方式。RNN需要一个词一个词地处理在处理大数据时这个时间差异就十分巨大。RNN的长期记忆还不太好。因为RNN把信息存储在一个固定纬度的向量里就好比一个打包盒每多加一个词就往这个打包盒里压缩一次。到输出层需要把这个打包盒打开、找到相关的信息的时候恐怕最开始输入的信息都已经被压缩得面目全非了很难解码。 Transformer大幅提升效果 2018年本世纪NLP界最大的外挂诞生了。这就是Transformer。先说一下注意力机制attention 人们发现如果能让输入和输出直接建立一个连接让模型去学习特定的目标词应该更关注哪些输入词而不是只从RNN压缩的打包盒里解码会非常好地提升翻译的表现。attention被作为一种增强手段用在循环或卷积神经网络上。其中一个重要的点是attention能非常有效地解决RNN长期记忆不好的缺点输入序列的任何两个词之间都有联系关系真正实现了“天涯若比邻”。 **Attention注意力机制**是深度学习中的一个重要概念它的核心思想是在处理复杂数据时允许模型集中关注于最相关的部分而忽视其他不太相关的信息。在深度学习的上下文中特别是在处理序列数据如文本、时间序列等时注意力机制允许模型在处理一个序列的元素时将更多的“注意力”放在与该元素更相关的其他元素上。这使得模型可以更有效地处理长序列并捕获序列中的长期依赖关系。注意力机制的实现方式有很多种但大多数都涉及到计算一个权重分布这个分布决定了在处理一个序列的元素时应该如何关注其他元素。这个权重分布通常是通过计算元素之间的相似性或相关性得到的。自注意力机制Self-Attention是注意力机制的一种特殊形式它允许模型在处理一个序列时关注该序列中的其他位置。自注意力机制的一个关键优点是它能够捕获序列中的长期依赖关系而且它的计算复杂度不随序列长度的增加而线性增长这使得它能够更有效地处理长序列。 Transformer模型就是完全基于自注意力机制的深度学习架构它在NLP领域取得了很好的效果。在Transformer中注意力和前馈神经网络是其主要的构成部分而传统的RNN和CNN结构被完全摒弃。总的来说注意力机制是一种强大的工具它允许深度学习模型更有效地处理复杂数据特别是序列数据。 Transformer的创新之处在于将attention的输入与输出之间的连接变为输入与输入自己的连接这相当于在做任务时把每个词都在上下文的语境中理解一次。作者称为自注意力机制self-attention。使用时将语义信息词向量和语序信息序号作为输入。由于自注意力模型之下词与词之间的联系变得很直接这种模型能更好地编码输入的上下文信息训练的反馈也能得到很好的传导。 Transformer的另一个厉害之处在于它可以毫无压力地进行并行计算。虽然它的计算量相比RNN大大增加了但由于可以并行计算在拥有足够算力的情况下需要的时间反而变少了。 Transformer出现之后由于效果太好大家几乎完全抛弃了其他的架构。如果说RNN时代是百花齐放的春秋战国Transformer就是秦王扫六合一举统一了整个NLP模型江湖。Transformer的性能使整个NLP界从蒸汽时代迈入了内燃机时代也使得后续效果超群的大模型的出现成为可能。参考NLP发展之路II - 从BERT到ChatGPT - 知乎 (zhihu.com) 预训练-微调时代 2018年BERT和初代GPT几乎在同一时间出现。BERT由谷歌开发GPT由OpenAI开发首先它们都采用了Transformer甚至层数也相同。其次它们都使用了当时几乎所有开源的、较高质量的NLP数据如wikipedia, 书籍等。最后它们的训练方法都是语言建模Language Modeling即给模型输入上文令其预测下文的方法。从而可以使用大量文本而无需人工标注。 BERT和GPT的参数量大约在亿级在当时已经是从未出现过的“大模型”了。加上使用了当时可获得的几乎所有高质量文本数据训练研究者发现这两个模型在大量数据中学到了对语言的基本理解和一些通用的世界知识并且将这些知识被储存在模型的参数中。有了这样的“义务教育”打底在此基础上只需针对各个专业下游任务如情感分析、对话生成进行一个小范围的基于监督学习的微调比如只调整模型最后一层的参数居然可以打败很多专门针对这些任务开发的模型。这就是‘’预训练-微调‘’模式。 BERT的预训练模型可以用来做不同的下游任务 (source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) GPT是一个单向模型。OpenAI采用标准的Language Modeling方式进行训练模型根据上文来推测下文。 BERT是一个双向模型。Google在训练BERT的时候挖掉输入文本中15%的词让模型去完成类似完形填空的任务 BERT和GPT架构的区别 (source: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding) ERT模型由于同时可以看到目标词上下文的信息一般在理解类任务上表现较好。而GPT模型只能看到上文在此类任务上表现略逊一筹。但是这类单向模型天然更适合生成类任务表现也稍好。这一时期的流行做法是无论什么任务先来一个BERT打底再换掉最后一层用自己的数据进行微调让模型产出成为自己需要的格式。尤其是在自己的数据不多的情况下这样做普遍比自己从头训练Transformer效果要好。大语言模型时代Prompt代替微调 OpenAI提出了非常巧妙的办法来忽悠模型完成任务——小样本提示词Few Shot Prompt也就是先给模型一些问答的例子最后留出一个问题。因为作为预测下文的语言模型GPT-2的目标是续写我们提供的输入而在这个过程中就正好回答了我们最后留出的问题。使用这样的方法GPT-2就可以在未经微调的情况下来完成各种它并没有被专门训练过的任务。利用提示Prompt和大语言模型互动 (Source: GPT-3: Language Models are Few-Shot Learners) Prompt模式本质是文本生成刚好是GPT这样单向模型更为擅长的。因此在目前大语言模型的训练中研究者们变成了更多采用GPT而不是BERT。大模型的涌现能力大力出奇迹 OpenAI继续沿着大力出奇迹的道路前行发布了GPT-3。 GPT-3与GPT-2在模型架构上没有区别只是采用了更大的模型和更多的数据将参数提升到千亿级别是BERT的五百倍。在标准NLP任务的测试中又展现出了不小的提升而且人们发现了这个模型出现了一些之前模型没有的处理复杂任务能力。模型解决某些相对简单直接的任务能力是随着模型的增大逐渐线性增长的而解决另外一些较复杂任务的能力则是在模型达到某个量级之后突然出现的我们称之为涌现能力Emergent Ability。大模型的涌现能力source: Beyond the Imitation Game: Quantifying and extrapolating the capabilities of language models 这类涌现能力有一些共同的特点比如任务是需要多步骤解决逻辑推理能力比较重要等等。一个突出的涌现能力叫做思维链能力(Chain-of-Thought简写为CoT)。这个现象是如果在prompt当中加入一个一步步推理的例子然后再问问题能够提高模型的准确率把以前做不对的题做对。一个可能的猜想是思维链prompt中给出了与目标答案更加相关的文本也就是人工写的相似的例子这些文本会激发模型中的相似记忆帮助它找到更相关的答案。引爆全球逻辑思维和对话能力的增强 Codex 增加GitHub上所有的代码作为训练数据的模型 InstructGPT这里OpenAI使用了一种基于强化学习的方法RLHFReinforcement Learning from Human Feedback with dialogueRLHF的具体方法是首先让人类标注员来写一些prompt和对应的答案然后用这个数据集去微调GPT-3然后再让人工为这个新GPT-3的输出排序用这个排序信息训练一个reward模型来辨别什么样的回答是人类喜欢的最后再用这个reward模型和强化学习的方法去继续训练GPT-3。 ChatGPT在GPT-3的架构和训练数据基础上增加代码数据再加上RLHF指令微调训练而成内部代号GPT-3.5。其能力分解开来大致就是GPT-3提供语言理解能力和世界知识Codex增强逻辑推理能力InstructGPT提供对话能力。OpenAI又对后端基础模型进行了升级从最开始的GPT-3.5升级到了GPT-4性能上又有大幅提升而且可以接受图像作为输入。至此我们已经回顾完了NLP大致的发展历史。从最开始的词袋模型到RNN到Transformers和BERT再到ChatGPTNLP经历了一段不断精进的发展道路。数据驱动和不断完善的端到端的模型架构是两大发展趋势。 ChatGPTChat Generative Pre-training Transformer是自然语言处理Natural Language ProcessingNLP领域的一种AI模型。 OpenAI 还发布了支持语音转文本的 Whisper API。

查看全文

http://www.dnsts.com.cn/news/253862.html