当前位置：首页 > news >正文

英文域名在哪个网站查询app优化网站建设

news 2026/2/17 11:32:14

英文域名在哪个网站查询,app优化网站建设,乌镇网站建设投标书,营销型网站建设教学目录 1. Understanding large language models1.1 What is an LLM?补充介绍人工智能、机器学习和深度学习的关系机器学习 vs 深度学习传统机器学习 vs 深度学习#xff08;以垃圾邮件分类为例#xff09; 1.2 Applications of LLMs1.3 Stages of building and using LLMs1.4… 目录 1. Understanding large language models1.1 What is an LLM?补充介绍人工智能、机器学习和深度学习的关系机器学习 vs 深度学习传统机器学习 vs 深度学习以垃圾邮件分类为例 1.2 Applications of LLMs1.3 Stages of building and using LLMs1.4 Introducing the transformer architecture1.5 Utilizing large datasets1.6 A closer look at the GPT architecture1.7 Building a large language model总结 1. Understanding large language models 大语言模型LLMs 如ChatGPT依托深度学习和transformer架构能够在多种自然语言处理NLP任务中表现出色尤其是在理解、生成和处理复杂语言方面。与传统的NLP模型不同LLMs不仅能够完成如文本分类和翻译等特定任务还能处理更具挑战性的任务如解析复杂指令和生成连贯的原创文本。这些模型的成功得益于大规模文本数据的训练和transformer架构的应用使它们能够捕捉语言中的深层次语境和细节。正是这种技术进步推动了NLP领域的变革使得我们能够使用更强大的工具与人类语言进行互动。接下来的讨论将基于transformer架构逐步实现一个类似ChatGPT的LLM帮助理解LLMs的工作原理。 1.1 What is an LLM? LLMLarge Language Model是一种神经网络旨在理解、生成和回应类人文本。这些模型通常是深度神经网络经过大量文本数据的训练数据量通常覆盖了互联网上的公共文本。 Large的含义大语言模型中的“large”指的是两个方面模型大小通常这些模型拥有数十亿甚至数百亿个参数。参数是模型在训练过程中需要优化的权重用来预测文本中的下一个单词。训练数据集的规模这些模型训练所使用的数据集通常非常庞大包括了互联网上的海量文本。训练目标大语言模型的核心任务之一是“下一个词预测”。这是因为语言本身具有序列性模型通过学习上下文、结构和文本之间的关系来理解语言。因此尽管“下一个词预测”看似是一个简单任务但它却能生成非常强大的模型。 LLM通常使用Transformer架构这是当前自然语言处理领域最流行的架构之一。Transformer的关键特点是它能够在生成文本时选择性地关注输入文本的不同部分从而帮助模型更好地理解语言的细微差别。 Transformer的优点是它能并行处理输入序列中的所有部分而不是像传统的循环神经网络RNN那样逐步处理从而加速训练和提高性能。 LLM常被视为生成性人工智能Generative AI, GenAI 的一种形式。生成性AI指的是利用深度神经网络创造新的内容比如文本、图像或其他媒体形式。LLM的目标是生成与人类语言相似的文本因此它也属于生成性人工智能的范畴。补充介绍人工智能、机器学习和深度学习的关系人工智能AI人工智能是一个广泛的领域旨在让机器具备类似人类的智能。这包括理解语言、识别模式和做出决策等任务。机器学习Machine Learning, ML机器学习是人工智能的一个子领域致力于开发能够从数据中学习并基于数据做出预测或决策的算法。深度学习Deep Learning, DL深度学习是机器学习的一个子领域专注于使用多层神经网络即深度神经网络来建模复杂的数据模式。机器学习 vs 深度学习传统机器学习在传统的机器学习方法中特征提取是由人工完成的。例如在垃圾邮件过滤任务中专家会手动选择特征如特定词汇的出现频率、感叹号的数量或邮件中的链接等来训练模型。深度学习深度学习则不需要人工提取特征。深度学习算法能够自动从原始数据中学习和提取特征并建模更复杂的模式和关系。因此深度学习可以处理更为复杂和多样化的数据集而无需依赖人工设计的特征。传统机器学习 vs 深度学习以垃圾邮件分类为例在传统的机器学习中模型训练依赖于人工选择的特征。专家通过分析数据并挑选出重要的特征来构建训练数据集。在深度学习中模型通过对数据进行训练自动学习到哪些特征最为重要从而提高预测的准确性不需要人工干预。 1.2 Applications of LLMs 由于大语言模型LLMs具备解析和理解非结构化文本数据的强大能力它们在多个领域中具有广泛的应用。以下是LLMs的一些主要应用机器翻译LLMs被广泛应用于不同语言之间的翻译任务。文本生成LLMs能够生成新的文本例如写作小说、文章甚至计算机代码。情感分析分析文本中的情感倾向例如判定评论或文章是正面、负面还是中立。文本摘要将长篇文章或内容进行总结提取核心信息。内容创作LLMs在创作内容方面表现出色如自动写作小说、文章等。聊天机器人和虚拟助手如OpenAI的ChatGPT和谷歌的Gemini前身为Bard这些应用可以回答用户问题并增强传统搜索引擎如谷歌搜索或微软Bing的功能。知识检索LLMs能够高效地从大量的专业领域文本中提取知识例如医学和法律领域。这包括查阅文档、总结长篇段落并回答技术性问题。 LLM的潜力与未来LLMs能够自动化几乎所有涉及文本解析和生成的任务其应用几乎是无限的。随着技术的不断创新和新的使用场景的探索LLMs有可能重新定义我们与技术的关系使其更加对话化、直观且易于访问。 1.3 Stages of building and using LLMs 从零开始编写一个大语言模型LLM是一个非常好的练习它能帮助我们深入理解模型的工作原理和局限性。此外构建自己的LLM还为我们提供了预训练或微调现有开源LLM架构的知识使我们能够将模型应用于特定领域的数据集或任务。 PyTorch与LLM 目前许多大语言模型是使用PyTorch深度学习库实现的这也是我们将使用的工具。对于PyTorch的全面介绍请参见附录A。研究表明定制的大语言模型特别是为特定任务或领域量身定制的LLMs在性能上往往优于通用的大语言模型如ChatGPT后者是为广泛的应用场景设计的。定制模型的例子包括BloombergGPT专为金融领域设计和专为医学问答设计的LLMs有关更多细节请见附录B。定制LLM的另一个显著优势是数据隐私。例如企业可能不希望将敏感数据与第三方LLM提供商如OpenAI共享因为存在保密性问题。此外开发较小的定制LLM能够直接在客户设备如笔记本电脑和智能手机上部署这是像苹果公司等公司正在探索的方向。这样做不仅可以大幅减少延迟还能降低服务器相关的成本。定制LLM还给予开发人员完全的控制权使他们可以根据需要更新或修改模型。创建LLM的流程创建LLM的通用流程包括预训练和微调。预训练阶段指的是对模型进行初步训练通常是在一个大型、多样化的数据集上训练以开发模型对语言的广泛理解。此阶段的模型被称为预训练模型例如GPT-3模型它能够执行基本的文本补全任务并具有有限的少量样本学习few-shot learning能力。微调是对模型进行进一步训练使其能够执行特定任务或应用。微调阶段通常使用较小的标注数据集来训练模型专注于某些领域或任务。预训练和微调的具体步骤预训练首先我们需要使用大规模的文本数据对LLM进行训练这些数据通常是未标注的文本即“原始文本”。在这个阶段模型使用自监督学习通过预测文本中的下一个单词来“生成”标签从而学习语言的结构和模式。微调当我们有了一个经过预训练的LLM后可以使用标注数据进行微调。微调分为两类指令微调使用包含问题和答案对的标注数据集如翻译任务中的问题和正确翻译文本。分类微调使用包含文本和相应类别标签的数据集如垃圾邮件分类任务中的“垃圾邮件”和“非垃圾邮件”标签。微调后的LLM可以完成更多复杂的任务如文本分类、翻译和问答等。通过从头开始构建LLM我们不仅能深入理解LLM的工作机制和局限性还能获得定制和优化现有开源LLM模型的能力特别是针对特定领域的任务。同时定制LLM有助于解决数据隐私问题并可部署在本地设备上减少延迟和服务器成本。在LLM的开发过程中预训练和微调是两个关键步骤前者通过大量数据训练模型后者则通过特定任务的标注数据进行精细化训练。 1.4 Introducing the transformer architecture 现代大型语言模型LLMs依赖于Transformer架构它是一种深度神经网络架构最初在2017年的论文《Attention Is All You Need》中提出。理解LLMs需要先理解原始的Transformer它最初是为机器翻译任务设计的旨在将英文文本翻译为德语或法语。 Transformer架构包括两个子模块编码器Encoder和解码器Decoder。编码器处理输入的文本并将其编码成一系列数字表示向量这些向量捕捉了输入文本的上下文信息。然后解码器利用这些编码向量生成输出文本。在机器翻译任务中编码器会将源语言的文本编码成向量解码器则解码这些向量生成目标语言的文本。关键的组件是自注意力机制Self-attention它允许模型根据每个词或标记之间的相对重要性来加权它们。这使得模型能够捕捉到输入数据中的长程依赖关系和上下文关系从而增强生成连贯且符合上下文的输出的能力。之后Transformer架构的变体如BERT和GPT在此基础上进行了改进并被用于不同的任务。BERT专注于掩码词预测它的训练方式与GPT不同BERT通过预测句子中被遮蔽的词来训练因此特别适合用于文本分类任务如情感分析和文档分类。而GPT则主要关注生成任务如文本生成、机器翻译和编写代码等。 GPT模型被设计为文本补全任务的生成模型并具备显著的多功能性能够进行零-shot学习和少-shot学习。零-shot学习指的是在没有任何具体示例的情况下完成任务而少-shot学习则是在只提供少量示例的情况下进行学习。最终Transformer和LLMs通常是可以互换使用的术语但并非所有Transformer模型都是LLMs也并非所有LLMs都基于Transformer架构。虽然LLMs的计算效率可以通过其他架构如循环神经网络或卷积神经网络进行改进但这些替代架构能否与基于Transformer的LLMs竞争以及它们是否会被实际采用还需要进一步观察。 1.5 Utilizing large datasets 大型语言模型LLMs如GPT-3如何使用庞大的、多样化的训练数据集进行预训练。这些数据集涵盖了各种主题包括自然语言和计算机语言。例如GPT-3的预训练数据集如下表所示数据集名称数据集描述令牌数量数据在训练中的比例CommonCrawl过滤网络爬虫数据4100亿60%WebText2网络爬虫数据190亿22%Books1基于互联网的书籍语料120亿8%Books2基于互联网的书籍语料550亿8%Wikipedia高质量文本30亿3% 数据集中的“令牌”是模型读取的文本单位令牌的数量大致等于文本中的单词和标点符号的数量。GPT-3模型的预训练数据集包含了大约3000亿个令牌尽管其中有4990亿个令牌在数据集中。这些庞大的数据集使得模型能够在语言语法、语义和上下文等多种任务中表现良好。进一步的GPT-3模型变体如Meta的LLaMA还扩展了训练数据源加入了如Arxiv研究论文和StackExchange代码相关QA等数据。 GPT-3的预训练需要大量资源估计成本为460万美元。然而许多预训练模型作为开源工具提供可以用于文本的写作、提取和编辑。LLMs还可以通过较小的数据集进行微调从而提高在特定任务中的表现并减少计算资源的需求。我们将编写预训练代码来学习如何在消费级硬件上完成LLM预训练并使用开源模型的权重来省去高成本的预训练步骤实现微调。 1.6 A closer look at the GPT architecture GPT的起源和发展 GPT生成式预训练模型最早由OpenAI在论文《通过生成式预训练改进语言理解》中提出。GPT-3是这个模型的扩展版本拥有更多的参数并在更大规模的数据集上进行训练。ChatGPT的原始版本是通过对GPT-3进行微调得到的微调使用的是OpenAI在InstructGPT论文中提出的大规模指令数据集。任务能力与训练方法 GPT模型的预训练任务非常简单——“预测下一个词”。这个任务属于一种“自监督学习”即模型通过预测文本中的下一个词来自动生成训练标签因此可以使用大规模的无标签文本进行训练。通过这种方法GPT不仅能完成文本补全还能进行拼写检查、分类、翻译等多种任务。这种多任务能力很特别因为GPT的训练目标只是预测下一个词而并非专门针对特定任务。自回归生成过程 GPT使用的“解码器”架构是原始Transformer架构的一部分适用于自回归生成。每次生成一个词该词会成为下一次预测的输入这样一轮接一轮地生成完整的文本使生成结果更加连贯。模型规模的扩展 GPT-3具有96层Transformer层和1750亿参数大大超越了最初的Transformer架构编码器和解码器各6层。这种规模的增加提升了模型的理解和生成能力。突现行为Emergent Behavior 由于GPT在多语言和多样化的文本数据上训练出现了“突现行为”——模型可以执行一些没有明确训练的任务如翻译。这种能力表明通过大规模数据的训练模型可以自发地“学习”某些复杂的模式。总结来说GPT的架构虽然简单但通过大量数据的预训练实现了多种自然语言处理任务。这些任务并不是专门设计的而是基于模型在多语言、多情境数据中的训练自发地涌现出的能力。 1.7 Building a large language model 大型语言模型开发的三阶段构建、预训练与微调这张图展示了从头开始构建一个大型语言模型LLM的三个主要阶段 Stage 1LLM 的基础构建数据准备和采样Data preparation sampling这一步骤主要是收集和处理数据。因为大型语言模型需要大量的数据来进行训练所以这里的数据准备包括采样、清洗和标注等过程。注意力机制Attention mechanism实现并理解注意力机制是构建 LLM 的关键步骤。注意力机制允许模型更好地理解句子中的重要词汇及其关系。LLM 架构设计LLM architecture这一步是设计模型的整体架构包括层数、维度、编码方式等。常见的架构有 Transformer、GPT、BERT 等。预训练Pretraining在完成前几步之后将模型在大量无标签数据上进行预训练。这是为了让模型学习到语言的基本结构和词汇关系。在这个阶段结束后得到了一个基础的 LLM实现了数据采样、注意力机制和架构的基础。 Stage 2构建基础模型Foundation Model 训练循环Training loop这一阶段的核心是建立训练循环。模型会在大量数据上进行训练逐步优化参数使其在语言任务上表现得更好。模型评估Model evaluation训练过程中需要定期评估模型性能查看是否收敛或是否需要调整超参数。加载预训练权重Load pretrained weights在一些情况下可以加载已有的预训练权重进行微调避免从头开始训练。在这个阶段的末尾得到了一个基础模型Foundation Model可以用作进一步任务的微调fine-tuning。 Stage 3微调模型微调分类器Fine-tuning for classification在一些任务中基础模型会被微调以实现分类功能。这里需要一个有标签的数据集通过训练让模型能够准确分类。微调为助手模型Fine-tuning for a personal assistant在其他任务中可以将基础模型微调成一个助手或对话模型通过带有指令的数据集训练让模型能够回答问题或提供交互支持。最后经过微调后得到了特定任务的模型例如分类器或个人助手聊天模型。总结 LLM对NLP的影响LLM革新了自然语言处理NLP领域从以往基于规则和简单统计方法转向深度学习方法提升了机器对人类语言的理解、生成和翻译能力。 LLM的训练步骤预训练在无标签的大规模文本数据上进行预训练采用预测句子下一个词的方式。微调在较小的有标签数据集上微调以执行指令或分类任务。架构基础LLM基于Transformer架构其核心是注意力机制使模型在逐词生成时可以选择性地访问输入序列的全部信息。 Transformer架构组成原始架构包括用于解析文本的编码器和生成文本的解码器。GPT-3和ChatGPT等生成型LLM仅使用解码器模块简化了架构。大规模数据需求LLM的预训练需要包含数十亿词的大规模数据集。涌现能力虽然LLM的预训练任务只是预测下一个词但模型在分类、翻译和总结等任务上展现出涌现的能力。微调效率预训练后的LLM基础模型可通过微调更高效地执行下游任务在特定任务上表现优于通用LLM。

查看全文

http://www.dnsts.com.cn/news/144751.html