当前位置: 首页 > news >正文

你们交学费做网站硬件开发工程师简历

你们交学费做网站,硬件开发工程师简历,设计简单的网站,电商网站支付体系建设特点文章目录 LLM 概述理解 Transformer 架构及其在 LLM 中的作用解密 GPT 模型的标记化和预测步骤 想象这样⼀个世界#xff1a;在这个世界里#xff0c;你可以像和朋友聊天⼀样快速地与计算机交互。那会是怎样的体验#xff1f;你可以创造出什么样的应用程序#xff1f;这正是… 文章目录 LLM 概述理解 Transformer 架构及其在 LLM 中的作用解密 GPT 模型的标记化和预测步骤 想象这样⼀个世界在这个世界里你可以像和朋友聊天⼀样快速地与计算机交互。那会是怎样的体验你可以创造出什么样的应用程序这正是OpenAI 努力构建的世界它通过其 GPT 模型让设备拥有与⼈类对话的能力。作为人工智能artificial intelligenceAI领域的最新成果GPT-4 和其他 GPT 模型是基于⼤量数据训练而成的大语言模型 large language modelLLM它们能够以非常高的准确性识别和生成人类可读的文本。 这些 AI 模型的意义远超简单的语音助手。多亏了 OpenAI 的模型开发人员现在可以利用自然语言处理natural language processingNLP技术创建应用程序使其以⼀种曾经只存在于科幻小说中的方式理解我们的需求。从学习和适应个体需求的创新型客户支持系统到理解每个学生独特的学习风格的个性化教学工具GPT-4 和 ChatGPT 打开了⼀扇门让⼈们看见⼀个充满可能性的全新世界。GPT-4 和 ChatGPT 究竟是什么 LLM 概述 作为 LLMGPT-4 和 ChatGPT 是 NLP 领域中最新的模型类型NLP 是机器学习和⼈⼯智能的⼀个子领域。在深⼊研究 GPT-4 和 ChatGPT 之前有必要了解 NLP 及其相关领域。AI 有不同的定义但其中⼀个定义或多或少已成为共识即 AI 是⼀类计算机系统它能够执行通常需要⼈类智能才能完成的任务。根据这个定义许多算法可以被归为 AI 算法比如导航应用程序所用的交通预测算法或策略类视频游戏所用的基于规则的系统。从表面上看在这些示例中计算机似乎需要智能才能完成相关任务。 机器学习machine learningML是 AI 的⼀个子集。在 ML 中我们不试图直接实现 AI 系统使用的决策规则。相反我们试图开发算法使系统能够通过示例自己学习。自从在 20 世纪 50 年代开始进行 ML 研究以来⼈们已经在科学文献中提出了许多 ML 算法。在这些 ML 算法中深度学习deep learningDL算法已经引起了广泛关注。DL 是 ML 的⼀个分支专注于受大脑结构启发的算法。这些算法被称为人工神经网络artificial neural network。它们可以处理⼤量的数据并且在图像识别、语音识别及 NLP 等任务上表现出色。 GPT-4 和 ChatGPT 基于⼀种特定的神经网络架构即 Transformer。Transformer 就像阅读机⼀样它关注句子或段落的不同部分以理解其上下文并产生连贯的回答。此外它还可以理解句子中的单词顺序和上下文意思。这使 Transformer 在语⾔翻译、问题回答和文本生成等任务中非常有效。 从 AI 到 Transformer 的嵌套技术集合 NLP 是 AI 的⼀个子领域专注于使计算机能够处理、解释和⽣成⼈类语言。现代 NLP 解决方案基于 ML 算法。NLP 的目标是让计算机能够处理自然语言文本。这个目标涉及诸多任务如下所述。将输⼊文本归为预定义的类别。这类任务包括情感分析和主题分类。比如某公司使用情感分析来了解客户对其服务的意见。电子邮件过滤是主题分类的⼀个例子其中电子邮件可以被归类为“个⼈邮件”“社交邮件”“促销邮件”“垃圾邮件”等。 将文本从⼀种语言自动翻译成另⼀种语言。请注意这类任务可以包括将代码从⼀种程序设计语言翻译成另⼀种程序设计语言比如从 Python翻译成 C。根据给定的文本回答问题。比如在线客服门户网站可以使用 NLP 模型回答关于产品的常见问题教学软件可以使用 NLP 模型回答学生关于所学主题的问题。根据给定的输入文本称为提示词 生成连贯且相关的输出文本。 如前所述LLM 是试图完成文本生成任务的⼀类 ML 模型。LLM 使计算机能够处理、解释和生成⼈类语言从而提高⼈机交互效率。为了做到这⼀点LLM 会分析大量文本数据或基于这些数据进行训练从而学习句子中各词之间的模式和关系。这个学习过程可以使用各种数据源包括维基百科、Reddit、成千上万本书甚至互联网本身。在给定输⼊文本的情况下这个学习过程使得 LLM 能够预测最有可能出现的后续单词从而生成对输入文本有意义的回应。于 2023 年发布的⼀些现代语言模型非常庞大并且已经在⼤量⽂本上进行了训练因此它们可以直接执行大多数 NLP 任务如文本分类、自动翻译、问题回答等。GPT-4 和 ChatGPT 是在文本⽣成任务上表现出色的 LLM。 LLM 的发展可以追溯到几年前。它始于简单的语言模型如 n-gram 模型。n-gram 模型通过使用词频来根据前面的词预测句子中的下⼀个词其预测结果是在训练⽂本中紧随前面的词出现的频率最高的词。虽然这种方法提供了不错的着手点但是 n-gram 模型在理解上下文和语法方面仍需改进因为它有时会生成不连贯的文本。为了提高 n-gram 模型的性能⼈们引⼊了更先进的学习算法包括循环神经网络recurrent neural networkRNN和长短期记忆long short-term memoryLSTM网络。与 n-gram 模型相比这些模型能够学习更长的序列并且能够更好地分析上下文但它们在处理大量数据时的效率仍然欠佳。尽管如此在很长的⼀段时间里这些模型算是最高效的因此在自动翻译等任务中被⼴泛使用。 理解 Transformer 架构及其在 LLM 中的作用 Transformer 架构彻底改变了 NLP 领域这主要是因为它能够有效地解决之前的 NLP 模型如 RNN存在的⼀个关键问题很难处理长文本序列并记住其上下文。换句话说RNN 在处理长文本序列时容易忘记上下文也就是臭名昭著的“灾难性遗忘问题”Transformer 则具备高效处理和编码上下文的能力。这场革命的核心支柱是注意力机制这是⼀个简单而又强大的机制。模型不再将文本序列中的所有词视为同等重要而是在任务的每个步骤中关注最相关的词。交叉注意力和自注意力是基于注意力机制的两个架构模块它们经常出现在 LLM 中。Transformer 架构⼴泛使用了交叉注意力模块和自注意力模块。 交叉注意力有助于模型确定输入文本的不同部分与输出⽂本中下⼀个词的相关性。它就像⼀盏聚光灯照亮输⼊文本中的词或短语并突出显示预测下⼀个词所需的相关信息同时忽略不重要的细节。为了说明这⼀点让我们以⼀个简单的句子翻译任务为例。假设输入文本 是这样⼀个英语句子Alice enjoyed the sunny weather in BrusselsAlice 很享受布鲁塞尔阳光明媚的天气。如果目标语言是法语那么输出文本应该是Alice a profité du temps ensoleillé à Bruxelles。在这个例子中让我们专注于生成法语单词 ensoleillé它对应原句中的 sunny。对于这个预测任务交叉注意力模块会更关注英语单词 sunny 和 weather因为它们都与ensoleillé 相关。通过关注这两个单词交叉注意力模块有助于模型为句子的这⼀部分生成准确的翻译结果如下图所示。 交叉注意力模块使模型关注输⼊⽂本英语句子中的关键部分以预测输出⽂本法语句子中的下⼀个单词 自注意力机制是指模型能够关注其输入文本的不同部分。具体到 NLP 领域自注意力机制使模型能够评估句子中的每个词相比于其他词的重要性。这使得模型能够更好地理解各词之间的关系并根据输入文本中的多个词构建新概念。来看⼀个更具体的例子。考虑以下句子Alice received praise from her colleaguesAlice 受到同事的赞扬。假设模型试图理解 her 这个单词的意思。自注意力机制给句子中的每个单词分配不同的权重突出在这个上下文中与 her 相关的单词。在本例中自注意力机制会更关注 Alice 和 colleagues 这两个单词。如前所述自注意力机制帮助模型根据这些单词构建新概念。在本例中可能出现的⼀个新概念是 Alice’s colleagues如下图所示。 自注意力机制使新概念 Alices colleagues 得以出现 与 RNN 不同Transformer 架构具有易于并行化的优势。这意味着 Transformer 架构可以同时处理输入文本的多个部分而无须顺序处理。这样做可以提高计算速度和训练速度因为模型的不同部分可以并行工作而无须等待前⼀步骤完成。基于 Transformer 架构的模型所具备的并行处理能力与图形处理单元graphics processing unitGPU的架构完美契合后者专用于同时处理多个计算任务。由于高度的并行性和强大的计算能力GPU 非常适合用于训练和运行基于 Transformer 架构的模型。硬件上的这⼀进展使数据科学家能够在大型数据集上训练模型从而为开发 LLM 铺平了道路。 Transformer 架构由来自谷歌公司的 Ashish Vaswani 等⼈在 2017 年的论文“Attention Is All You Need”中提出最初用于序列到序列的任务如机器翻译任务。标准的Transformer 架构有两个主要组件编码器和解码器两者都十分依赖注意力机制。编码器的任务是处理输入文本识别有价值的特征并生成有意义的文本表示称为嵌入embedding。解码器使用这个嵌入来生成⼀个输出比如翻译结果或摘要文本。这个输出有效地解释了编码信息。 生成式预训练 TransformerGenerative Pre-trained TransformerGPT是⼀类基于 Transformer 架构的模型专门利用原始架构中的解码器部分。在GPT 中不存在编码器因此无须通过交叉注意力机制来整合编码器产生的嵌⼊。也就是说GPT 仅依赖解码器内部的自注意力机制来生成上下文感知的表示和预测结果。请注意BERT 等其他⼀些众所周知的模型基于编码器部分但本书不涉及这类模型。下图展示了 NLP 技术的演变历程。 NLP 技术从 n-gram 到 LLM 的演变 解密 GPT 模型的标记化和预测步骤 GPT 模型接收⼀段提示词作为输入然后生成⼀段文本作为输出。这个过程被称为文本补全。举例来说提示词可以是 The weather is nice today, so Idecided to今天天气很好所以我决定模型的输出则可能是 go for a walk去散步。你可能想知道 GPT 模型是如何根据输入的提示词构建输出⽂本的。正如你将看到的这主要是⼀个概率问题。当 GPT 模型收到⼀段提示词之后它首先将输入拆分成标记token。这些标记代表单词、单词的⼀部分、空格或标点符号。比如在前面的例子中提示词可以被拆分成The, wea, ther, is, nice, today, so, I, de, ci, ded, to。几乎每个语言模型都配有自己的分词器。截至本书英文版出版之时GPT-4的分词器还不可用不过你可以尝试使用 GPT-3 的分词器。 理解标记与词长的⼀条经验法则是对于英语文本100 个标记⼤约等于 75 个单词。因为有了注意力机制和 Transformer 架构LLM 能够轻松处理标记并解释它们之间的关系及提示词的整体含义。Transformer 架构使模型能够高效地识别文本中的关键信息和上下文。为了生成新的句子LLM 根据提示词的上下文预测最有可能出现的下⼀个标记。OpenAI 开发了两个版本的 GPT-4上下文窗口大小分别为 8192 个标记和 32 768 个标记 。与之前的循环模型不同带有注意力机制的Transformer 架构使得 LLM 能够将上下文作为⼀个整体来考虑。基于这个上下文模型为每个潜在的后续标记分配⼀个概率分数然后选择概率最高的标记作为序列中的下⼀个标记。在前面的例子中“今天天气很好所以我决定”之后下⼀个最佳标记可能是“去”。 接下来重复此过程但现在上下文变为“今天天气很好所以我决定去”之前预测的标记“去”被添加到原始提示词中。这个过程会⼀直重复直到形成⼀个完整的句子“今天天气很好所以我决定去散步。”这个过程依赖于 LLM 学习从大量文本数据中预测下⼀个最有可能出现的单词的能力。下图展示了这个过程。 逐个标记地补全文本整个过程是迭代式的
http://www.dnsts.com.cn/news/100624.html

相关文章:

  • 上海网站建设caiyiduo做网站不需要编程的软件
  • 360网站seo手机优化软件有什么字体设计网站好
  • 金华专业网站制作山东网络科技有限公司
  • 石家庄企业自助建站系统宁远县做网站的
  • 网站建设整体解决方案湛江市住房和城乡建设网站
  • 河北保定最新消息上海关键词优化排名软件
  • 网站开发学生职业规划简述什么是响应式布局
  • 如何让网站做成移动版计算机ui设计是什么
  • 建立网站就是制作网页对吗私人私密浏览器免费下载
  • 公司网站是怎么做的温州网站开发风格
  • 书画协会网站建设西安到北京的高铁
  • 备案不关闭网站吗如何建立单页网站
  • icp网站建设通辽网站建设公司
  • 网站备案的公司注销了工程备案信息查询
  • 网上拿货做哪个网站好魔力百科网站做料理视频
  • 做设计下素材有比较好的网站装潢公司网站建设
  • 网站开发培训北京快速搭建一个网站
  • wix做的网站在国内访问不新闻类网站源码
  • 网站建设优化安徽做细分行业信息网站
  • 试用网站 建站成都网站制作哪家专业
  • 网站开发设计报告书怎么写平台网站开发
  • 自己网站做虚拟币违法吗济南能源建设网站
  • 上海市建筑网怎么做网站优化 sit
  • 织梦购物网站整站源码运城建设局网站
  • 公司互联网站全面改版网络建站优化科技
  • 网站内容建设总结个人网站做捐赠发布违法吗
  • 网站建设企业有哪些重庆梁平网站建设哪家便宜
  • 工信和信息化网站备案系统温州网站制作哪家好
  • 商务网站规划与建设课程设计企业做网站怎么做
  • 做长页网站装饰设计公司属于什么行业