当前位置: 首页 > news >正文

做动画视频的网站有哪些网店网站技术方案

做动画视频的网站有哪些,网店网站技术方案,东道 网站建设,网站后台程序编者按#xff1a; 面对 Llama 模型家族的持续更新#xff0c;您是否想要了解它们之间的关键区别和实际性能表现#xff1f;本文将探讨 Llama 系列模型的架构演变#xff0c;梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程#xff0c;深入剖析了每个版本的技术创新#… 编者按 面对 Llama 模型家族的持续更新您是否想要了解它们之间的关键区别和实际性能表现本文将探讨 Llama 系列模型的架构演变梳理了 Llama 模型从 1.0 到 3.1 的完整演进历程深入剖析了每个版本的技术创新还通过实际实验对比了 Llama 2 和 Llama 3 在推理速度、答案长度和相对答案质量RAQ等关键指标上的表现差异。 根据本文 Llama 模型的架构演变主要经历了以下三个阶段 Llama 1基于原始 Transformer 架构引入了预归一化、RMSNorm、SwiGLU 激活函数和旋转式位置编码等改进提升了模型的训练稳定性和性能。Llama 2在 Llama 1 的基础上将上下文长度扩展至 4096并引入了分组查询注意力 (GQA) 机制有效降低了推理过程中的内存需求提升了推理速度。Llama 3进一步将 GQA 应用于小型模型并采用更高效的分词器 TikToken扩大了词汇表的数量同时将上下文长度翻倍并大幅增加了训练数据量。 作者 | Luís Roque 编译 | 岳扬 01 Introduction Meta 公司推出了其大语言模型 Llama 的三个主要版本。Llama 在 2023 年初的首度亮相为开源自然语言处理NLP社区带来了重大突破。Meta 一直通过分享最新的模型版本为这一社区贡献力量。 在这里我们需要区分“开放型open LLM”与“开源open-source LLM”。 传统上开源软件会在特定的公共许可证下公开源代码允许用户使用和修改。在 LLM 领域开放型 LLM 会公开模型权重和初始代码而开源 LLM 则会更进一步在宽松的许可下共享整个训练过程包括训练数据。目前包括 Meta 的 Llama 在内的多数模型都属于开放型 LLM因为它们并未公开用于训练的数据集。 Llama 经历了三次重要的架构更新。 版本 1 对原始的 Transformer 架构进行了多项改进。版本 2 在大模型中引入了分组查询注意力GQA机制。版本 3 将这一机制扩展到了小模型同时引入了更高效的分词器还扩大了词汇量。版本 3.1 并未对核心架构做出调整主要的变化在于训练数据的清洗、上下文长度的增加以及对更多语言的支持。 本文探讨了 Llama 的架构演变着重介绍其主要进步及其对 LLM 未来发展的影响。文章最后通过一个实验对 Llama 2 和 Llama 3 进行了比较使用了推理速度、答案长度和相对答案质量RAQRelative Answer Quality框架[1]等指标进行评估。RAQ 框架提供了一个客观的评分系统用于检验 LLM 的回答准确度对于评估特定应用场景尤为有用。 Figure 1: Llama family (image by author with DALL-E) 02 Llama: A Family of Open LLMs 2.1 Llama 1该系列首个模型问世 Llama 系列的第一个模型Llama 1 [2]是建立在 Vaswani 等人在 2017 年提出的编码器-解码器 Transformer 架构之上的[3]。该架构曾是 NLP 领域的重大创新并且至今仍是 LLM 模型的基础架构。 Llama 1 在其核心设计中采纳了这一架构并在此基础上进行了多项优化包括 预归一化技术 借鉴了 GPT3 [4]架构中提高训练稳定性的方法Llama 1 也采用了对每个 Transformer 子层的输入进行归一化的策略而不仅仅是对输出进行归一化处理具体细节如图 2 所示。 图 2原始 Transformer 架构与 Llama 1 架构的不同之处特别是在 Transformer 子层中对每个输入都进行了归一化处理图片由作者提供 此外Llama 1 还采用了 RMSNorm [5] 来替代传统的 LayerNorm 函数这一改变在保持训练稳定性和提升模型收敛速度的同时大幅提高了计算效率。 RMSNorm 之所以能更高效是因为其创造者发现 LayerNorm 的优势在于 rescaling invariance译者注指的是归一化过程能够适应输入数据的缩放使得网络对这种缩放不敏感。而非 recentering invariance译者注如果输入数据的均值发生了变化但数据的分布形状和范围保持不变那么具有 recentering invariance 的算法或函数的输出应该不受影响。。基于这一发现他们省略了归一化过程中的均值计算使得算法更加简洁而效果不减且运算效率显著提升。 图 3层归一化LayerNorm与均方根归一化RMSNorm之间的方程差异图片由作者提供 SwiGLU 激活函数 在激活函数的选择上研究者们采用了 SwiGLU [6] 函数来替代传统的 ReLU 函数这一改变旨在提升模型的性能。两者的核心差异在于 ReLU 函数会将所有负数输入直接归零而正数输入则保持不变。相比之下SwiGLU 函数含有一个可学习的参数 β能够调节函数的插值程度。 随着 β 值的增大SwiGLU 的行为将逐渐接近 ReLU这一点如图 4 所示。 图 4ReLU 与 SwiGLU 在不同 β 值下的行为对比可以看到当 β 达到 100 时两者的曲线趋于一致。 旋转式位置编码Rotary Positional Embeddings 在大语言模型LLMs中位置编码起到了至关重要的作用这是因为 Transformer 架构本身不区分单词的顺序。也就是说如果没有位置编码的辅助Transformer 会将单词顺序不同但单词相同的两个句子视为相同的句子。 例如如果没有位置编码下面两个句子的含义 Transformer 将无法区分 Sentence 1: Llama 2 is better than Llama 1 Sentence 2: Llama 1 is better than Llama 2 句子1Llama 2的性能优于Llama 1。句子2Llama 1的性能优于Llama 2。 在论文[3]中提出了一种通过正弦和余弦函数实现的绝对位置编码Absolute Positional Embeddings。序列中的每个位置都有其独特的编码positional embedding它们与词向量相加从而确保即使单词相同不同顺序的句子也能表达不同的意思。 简单来说我们可以假设句子中的单词是用一维向量而不是多维向量来编码的。如图 5 所示在词向量中“1”和“2”的表示值是相同的。但是在加入了位置编码之后它们的表示值就变得不同了分别从0.88变为1.04以及从0.26变为0.1。 图 5绝对位置编码(Absolute Positional Embeddings)(图片由作者提供 尽管绝对位置编码已经解决了 Transformer 不区分顺序的问题但它生成的位置编码是相互独立的没有考虑到序列中单词之间的相对位置关系。 这意味着在模型看来位置 1 和位置 2 之间的相关性与位置 1 和位置 500 之间的相关性并无差异。然而我们知道实际情况并非如此因为在位置上更接近的单词其相关性理论上应该更高。 旋转式位置编码[7]RoPE能够解决上述问题它通过将序列中的每个位置转换成词嵌入的旋转变量来模拟单词间的相对位置关系。 以前文的 “Llama 2 is better than Llama 1” 为例假设词嵌入现在是二维的。那么“better ”一词将由基于其位置 m (4) 和常数 θ 的原始二维向量的二维旋转向量来表示。 图 6展示了如何通过旋转式位置编码Rotary Positional Embedding将原始向量转换为新的向量。这一转换是基于向量在序列中的位置例如m4和常数θ来进行的图片由作者提供 采用这种方式即便在原句中增加更多词汇单词之间的相对距离也能得到保持。比如在句子 “The LLM Llama 2 is better than Llama 1” 中添加两个单词尽管“better”和“than”的位置从4和5变为6和7但由于旋转量保持一致两个向量之间的相似性即左图中向量的点积与右图中的点积相同依旧不变。 图 7旋转式位置编码维持 tokens 间相对距离的能力图片由作者提供 2.2 Llama 2Llama 1 的升级版 Llama 2 [8] 保留了 Llama 1 对原始 Transformer 架构所做的所有改动。在此基础上还将处理上下文的长度扩展至 4096相较于之前的 2048翻了一番。同时对于 34B 和 70B 这样的大型模型Llama 2 使用 Grouped-Query Attention (GQA) [10] 取代了传统的 Multi-Head Attention (MHA) [9]。 由于需要大量内存来加载所有的注意力头的 queries、keys 和 values MHA 成为了 Transformer 的性能瓶颈。针对这一问题有两种解决方案 Multi-Query Attention [9]MQA通过在注意力层使用单一的键和值头key and value配合多个查询头query heads来大幅降低内存需求。但这种做法可能会降低模型的质量并导致训练过程不稳定因此像 T5 这样的其他开源大语言模型并未采用此方法。GQA 则采用了一种折中方案它将查询值query values分为 G 组GQA-G每组共享一个键和值头key and value head。如果 GQA 的组数为 1GQA-1则相当于 MQA所有查询queries都集中在一组而如果组数等于头数GQA-H则与 MHA 相当每个查询query自成一组。这种方法减少了每个查询query组中的键和值头keys and values数量从而缩小了键值缓存的大小减少了需要加载的数据量。与 MQA 相比这种更为温和的缩减方式在提升推理速度的同时也降低了解码过程中的内存需求且模型质量更接近 MHA速度几乎与 MQA 持平。 图 8MHA、GQA 和 MQA 方法概览图片由作者提供 2.3 Llama 3: Size and Tokenization Llama 3 [11] 将处理上下文的长度从 4096 扩展至 8192并将 GQA 使用到了较小规模的模型8B。同时研究者们还将分词工具从 Sentence Piece [12] 更换为 OpenAI 模型所采用的 TikToken [13]。因为新的词汇表容量增加到了 128k 个 tokens较之前的 32k 有了大幅提升这一变更显著提升了模型的性能。 这两种分词工具的主要差异在于在输入的 tokens 已经存在于词汇表中时TikToken 会跳过字节对编码BPE [14] 的合并规则。 例如如果“generating”这个词已经在词汇表中了那么它将作为一个完整的 token 返回而不是将其拆分为“generating”和“ing”这两个最小单元的 tokens 。 2.4 Llama 3.1 在 2024 年 7 月发布的 Llama 3.1实现了上下文长度128K tokens的显著提升并新增了对 8 种语言的支持。此次发布版本的一个重要亮点是更大的 Llama 3.1 405B 模型。在此之前开放式的 LLMs大语言模型通常模型规模都低于 100 B。 最后我们可以从下表中总结一下 Llama 模型的演变情况 表 1比较 Llama 模型在上下文长度、词汇表大小、训练数据集大小以及支持语言数量方面的演变。 03 Llama 2 与 Llama 3模型比较 在本节中我们将 Llama2 和 Llama 3 模型在 SQuAD 数据集上进行测试。SQuAD 是一个采用 CC BY-SA 4.0 许可协议的问答数据集https://huggingface.co/datasets/rajpurkar/squad。该阅读理解数据集reading comprehension dataset由一系列维基百科文章的问题组成。模型需要根据上下文检索出问题的正确答案。对于本次模型比较数据集中有三个较为重要的字段 问题question——模型需要回答的问题。上下文context——模型需要从中提取答案的背景信息。答案answers——问题的文本答案。 评估过程将包括三个量化指标第一个是评估推理速度第二个是确定答案长度第三个是评估准确性。 对于准确性的评估我们使用 RAQ [1]。RAQ 通过一个独立的 LLM 对 Llama 2 和 Llama 3 的答案进行排序排序的依据是它们与真实答案的接近程度。 我们首先下载这两个模型的 .gguf 格式文件以便能够在 CPU 上运行它们并将它们放置在 model/ 文件夹下。 我们使用了每个模型的 instruct 版本并进行了 4-bit 量化 nous-hermes-Llama-2-7b.Q4_K_M.gguf来自 https://huggingface.co/TheBloke/Nous-Hermes-Llama-2-7B-GGUFMeta-Llama-3-8B-Instruct-Q4_K_M.gguf来自 https://huggingface.co/NousResearch/Meta-Llama-3-8B-Instruct-GGUF 在完成上述操作之后接下来我们会导入所有需要的库以及我们自定义的一个生成器。这个生成器是一个函数或者类它能够接受我们想要使用的模型作为输入参数。 这个类的作用是从 config.yaml 配置文件中载入模型参数这些参数的具体设置包括设定上下文长度为 1024调节模型运行的“temperature ”为 0.7以及限制输出的最大 tokens 数为2000。 此外系统还构建了一个基于 LangChain 的提示词模板。这个模板的作用是在将问题和相关上下文提交给大语言模型之前对它们进行格式化处理以便获得更准确的响应。 函数 get_llm_response 负责接收已加载的大语言模型、相关上下文以及问题并输出模型的回答以及一系列量化评估指标。 评估结束后我们将各项指标进行了可视化展示并发现 Llama 3 的速度比 Llama 2 快其平均生成速度达到每秒 1.1 个单词而 Llama 2 的生成速度仅为每秒 0.25 个单词。在答案长度方面Llama 3 输出的答案较长平均为 70 个单词相比之下Llama 2 7B 的答案平均长度只有 15 个单词。根据相对答案质量RAQRelative Answer Quality评估框架Llama 3 在平均排名上拔得头筹约为 1.25而 Llama 2 的表现则稍逊一筹其平均排名大约为 1.8。 图 9Llama 2 7B vs Llama 3 8B图片由作者提供 表 2 展示了不同语言模型性能的 Dunn 事后检验Dunn post-hoc test结果。每个单元格显示了两种模型之间的性能差异是否在 5 %的显著性水平significance level上具有统计意义。“Significant” 意味着存在统计上的显著差异p值不超过0.05而 “Not Significant” 则意味着模型之间的性能差异不具备统计显著性p值超过0.05。根据检验结果Llama 3 与 Llama 2 在性能上的差异是显著的。 表 2不同 LLM 模型性能排名差异的显著性分析 最后从定性角度我们分析了两种模型对某一特定问题的回答“What percentage of improvement over energy code requirements will be the goal of all new construction and renovations?”。这一问题基于以下上下文信息得出答案两者均正确地回答了问题。 然后如下所示Llama 2 在回答过程中先是表示答案不在给定上下文中但最终却又引用了上下文中的内容来给出答案显得前后矛盾。而 Llama 3 则能够准确地从上下文中找到答案并简洁明了地作出了正确回应。 04 Conclusions Llama 模型在发展过程中不断进行改进使模型在处理语言任务时更加高效、表现更佳并且能够适应更广泛的应用场景。从最初的 Llama 1 开始引入了如 RMSNorm 输入归一化和更平滑的激活函数等基础性改变后续的每个模型版本都是在此基础上进一步改进。 Llama 2 通过采用 GQA 提高推理效率对这一方法进行了优化为 Llama 3 的进一步提升铺平道路。Llama 3 在此基础上将 GQA 应用于更小型的模型采用了词汇表数量更大的高效分词器将上下文长度翻倍并大幅增加了训练数据量。 Llama 3.1 版本开启了新的篇章。它将上下文长度进一步扩展至 128K 个 token增加了对更多语言的支持并推出了迄今为止最大的开放式模型 —— 405B 模型。 Llama 模型的连续升级使得它们在各种应用场景中都具有卓越的适应性。至今Llama 模型已累计下载超过 3 亿次而将其集成到利用私有 LLM 技术的数千种产品中仅仅是一个开始。颇具讽刺意味的是Llama 现在在推动开放式 AI 的发展道路上走在了前列取代了曾经更为开放的 OpenAI 所占据的位置。 References [1] Luís Roque, Rafael Guedes. “Research to Production: Relative Answer Quality (RAQ) and NVIDIA NIM.” Towards Data Science. Medium, 2024. [2] Hugo Touvron, Thibaut Lavril, Gautier Izacard, Xavier Martinet, Marie-Anne Lachaux, Timothée Lacroix, Baptiste Rozière, Naman Goyal, Eric Hambro, Faisal Azhar, Aurelien Rodriguez, Armand Joulin, Edouard Grave, Guillaume Lample. “Llama: Open and Efficient Foundation Language Models.” arXiv preprint arXiv:2302.13971, 2023. [3] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin. “Attention Is All You Need.” arXiv preprint arXiv:1706.03762, 2017. [4] Tom B. Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel M. Ziegler, Jeffrey Wu, Clemens Winter, Christopher Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, Dario Amodei. “Language Models are Few-Shot Learners.” arXiv preprint arXiv:2005.14165, 2020. [5] Biao Zhang, Rico Sennrich. “Root Mean Square Layer Normalization.” arXiv preprint arXiv:1910.07467, 2019. [6] Noam Shazeer. “GLU Variants Improve Transformer.” arXiv preprint arXiv:2002.05202, 2020. [7] Jianlin Su, Yu Lu, Shengfeng Pan, Ahmed Murtadha, Bo Wen, Yunfeng Liu. “RoFormer: Enhanced Transformer with Rotary Position Embedding.” arXiv preprint arXiv:2104.09864, 2021. [8] Hugo Touvron, Louis Martin, Kevin Stone, Peter Albert, Amjad Almahairi, Yasmine Babaei, Nikolay Bashlykov, Soumya Batra, Prajjwal Bhargava, Shruti Bhosale, Dan Bikel, Lukas Blecher, Cristian Canton Ferrer, Moya Chen, Guillem Cucurull, David Esiobu, Jude Fernandes, Jeremy Fu, Wenyin Fu, Brian Fuller, Cynthia Gao, Vedanuj Goswami, Naman Goyal, Anthony Hartshorn, Saghar Hosseini, Rui Hou, Hakan Inan, Marcin Kardas, Viktor Kerkez, Madian Khabsa, Isabel Kloumann, Artem Korenev, Punit Singh Koura, Marie-Anne Lachaux, Thibaut Lavril, Jenya Lee, Diana Liskovich, Yinghai Lu, Yuning Mao, Xavier Martinet, Todor Mihaylov, Pushkar Mishra, Igor Molybog, Yixin Nie, Andrew Poulton, Jeremy Reizenstein, Rashi Rungta, Kalyan Saladi, Alan Schelten, Ruan Silva, Eric Michael Smith, Ranjan Subramanian, Xiaoqing Ellen Tan, Binh Tang, Ross Taylor, Adina Williams, Jian Xiang Kuan, Puxin Xu, Zheng Yan, Iliyan Zarov, Yuchen Zhang, Angela Fan, Melanie Kambadur, Sharan Narang, Aurelien Rodriguez, Robert Stojnic, Sergey Edunov, Thomas Scialom. “Llama 2: Open Foundation and Fine-Tuned Chat Models.” arXiv preprint arXiv:2307.09288, 2023. [9] Noam Shazeer. “Fast Transformer Decoding: One Write-Head is All You Need.” arXiv preprint arXiv:1911.02150, 2019. [10] Joshua Ainslie, James Lee-Thorp, Michiel de Jong, Yury Zemlyanskiy, Federico Lebrón, Sumit Sanghai. “GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints.” arXiv preprint arXiv:2305.13245, 2023. [11] Meta AI. “Introducing Llama 3.” Meta AI Blog, 2024. [12] Taku Kudo, John Richardson. “SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing.” arXiv preprint arXiv:1808.06226, 2018. [13] OpenAI. “TikToken.” GitHub. [14] Rico Sennrich, Barry Haddow, Alexandra Birch. “Neural Machine Translation of Rare Words with Subword Units.” arXiv preprint arXiv:1508.07909, 2015. Thanks for reading! Hope you have enjoyed and learned new things from this blog! About the authors Luís Roque Serial entrepreneur and leader in the AI space. I develop AI products for businesses and invest in AI-focused startups. https://www.linkedin.com/in/luisbrasroque/ END 本期互动内容 ❓文章提到 Llama 模型采用了多项技术优化如 GQA 和高效分词器等。你认为在这些优化中哪一项对模型性能提升最关键为什么 原文链接 https://towardsdatascience.com/the-evolution-of-llama-from-llama-1-to-llama-3-1-13c4ebe96258
http://www.dnsts.com.cn/news/113772.html

相关文章:

  • 邹城网站网站建设济南网签查询
  • 免费的网站搭建烟台网站快速优化排名
  • 黑链 对网站的影响搭建广告网站费用
  • 专门做ppt的网站斧头免费模板下载网
  • 自建网站 备案广州市番禺人才网
  • 公司网站建设方案建议宁波网站建设工作
  • 番禺网站建设三杰科技昆明门户网站建设
  • 国外文创产品设计网站meta 优化建议
  • 北京网站建设龙鹏网站文章标题
  • 免费行情软件网站大全下载怎么用网吧电脑做网站服务器
  • 开利网络企业网站建设第一品牌网页制作基础成绩
  • 400电话安装佛山营销网站建设干完房产中介整个人废了
  • 网站文章内容页keyword设置找什么样的公司帮助做网站
  • 免备案做网站可以盈利吗outlook企业邮箱
  • 网站建设 域名主机钱币网站建设
  • 儿童网站建设wordpress 无插件主题
  • 网站被恶意刷流量传奇手游排行榜前一
  • seo网站关键词排名软件静态网站建设的PPT
  • .net 响应式网站哪些网站可以做微商品牌宣传
  • 做网站送优化网站 哪些服务器
  • 辽宁做网站的公司app官网模板
  • 网站开发用到什么技术各大搜索引擎网站提交入口
  • 做校园二手交易网站的目的app推广文案
  • 10月哪个网站做电影票活动网站不能风格
  • 做英文网站建设网站搭建 成都
  • 中国移动门户网站考试类网站如何做
  • 海珠区建设和水务局网站定制网站建设报价单
  • 网站建设课程大纲动漫设计师资格证
  • 长沙市网站推广多少钱两岸已进入准战争状态
  • mysql 网站开发 问好wordpress 页面 模板