当前位置: 首页 > news >正文

南宁网站优化公司电话短视频推广方式有哪些

南宁网站优化公司电话,短视频推广方式有哪些,免费php企业网站源码,姑娘视频在线观看免费完整版高清当前#xff0c;ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点#xff0c;探索它在对话模型中的创新之处。 GLM: 自回归空白填充的多任务预训练语言模型 ChatGLM-6B 技…当前ChatGLM-6B 在自然语言处理领域日益流行。其卓越的技术特点和强大的语言建模能力使其成为对话语言模型中的佼佼者。让我们深入了解 ChatGLM-6B 的技术特点探索它在对话模型中的创新之处。 GLM: 自回归空白填充的多任务预训练语言模型 ChatGLM-6B 技术特点详解GLMGLMGeneral Language Model发展背景GLM特点GLM的改进 GLM预训练框架预训练目标自回归空白填充多任务预训练 模型架构2D 位置编码微调 GLM 对比与 BERT 的比较与 XLNet 的比较与 T5 的比较与 UniLM 的比较 ChatGLM-6B 技术特点详解 ChatGLM-6B 是一个开源的、支持中英双语的对话语言模型基于 General Language Model (GLM) 架构具有 62 亿参数基于原文提炼出一些特点 Tokenization标记化 论文采用了基于 icetk 包的文本标记器词汇量达到 150,000其中包括 20,000 个图像标记和 130,000 个文本标记。标记的范围从 No.20000 到 No.145653其中包括常见标点、数字和无扩展定义的空格。层规范化 层规范化在语言建模问题中的重要性得到了深入讨论。论文采用了 DeepNorm 作为 Post-LN 方法取代了传统的 Pre-LN 方法。该决策是为了应对模型规模扩大至 100B 甚至遇到多模态数据时 Pre-LN 的训练困难的问题。管道并行分析 管道并行性的优化对于训练效率至关重要。论文引入了 Gpipe 和 PipeDream-Flush 策略。在实际 GLM-130B 的预训练中通过调整微批次的数量成功减少了 GPU 内存泡沫的占用。具体而言当微批次数m大于等于 4 倍管道数p时总 GPU 内存泡沫的占比可以被降低到可接受的水平。权重量化 为了在推理过程中节省 GPU 内存论文采用了权重量化技术。Absmax 量化方法在性能和计算效率上的平衡得到了充分的考虑。以下是量化结果的比较 Model | Original | Absmax INT8 | Absmax INT4 | Zeropoint INT4 -----------|----------|-------------|-------------|---------------- BLOOM-176B | 64.37% | 65.03% | 34.83% | 48.26% GLM-130B | 80.21% | 80.21% | 79.47% | 80.63%这表明 GLM-130B 在 INT4 精度下能够保持较高性能同时有效地减少 GPU 内存占用。考虑到ChatGLM-6B是基于 General Language Model (GLM) 架构实现的下文将详细对GLM架构展开介绍。 GLM 这个图展示了GLMGeneral Language Model的基本原理。在这个模型中我们首先将文本中的一些部分绿色部分标记为空白也就是我们遮挡了其中的一些文本片段。接下来我们通过自回归的方式逐步生成这些被遮挡的文本片段。也就是说我们从左到右逐个预测每个被遮挡的位置上应该是什么词语然后将这些预测组合起来形成完整的文本。 这个过程类似于我们填写一篇文章的空白部分通过上下文逐步补充缺失的信息。 GLMGeneral Language Model发展背景 当前存在多种预训练模型架构如自编码模型BERT、自回归模型GPT和编码-解码模型T5。然而这些框架在自然语言理解NLU、无条件生成和条件生成等任务中均无法在所有方面表现最佳。 GLM特点 GLM是一种基于自回归空白填充的通用语言模型。它通过在输入文本中随机空白化连续跨度的令牌并训练模型顺序重构这些跨度来进行预训练。GLM改进了空白填充预训练引入了2D位置编码和允许以任意顺序预测跨度的机制。GLM能够处理不同类型任务的预训练通过变化空白的数量和长度实现了对条件和无条件生成任务的预训练。 GLM的改进 GLM在实现自回归空白填充时引入了两个关键改进1跨度洗牌即对空白的连续跨度进行随机排序22D位置编码为每个位置引入二维位置编码。这些改进使得GLM在相同参数和计算成本下显著优于BERT并在多任务学习中表现卓越尤其在NLU和生成任务中。 自回归模型例如GPT 原理 自回归模型是一种通过学习从左到右的语言模型来预训练的框架。它的核心思想是根据上下文左侧的单词来预测下一个单词实现对整个文本的逐词建模。特点 优势在于适用于长文本生成并在参数规模较大时表现出良好的性能。 不足之处在于其单向的注意力机制不能完全捕捉自然语言理解任务中上下文词汇之间的依赖关系。 自编码模型例如BERT 原理 自编码模型通过学习一个对输入进行自编码的目标例如通过将输入文本中的某些单词随机遮蔽然后尝试预测这些被遮蔽的单词从而达到学习双向上下文表示的目的。特点 通过双向上下文编码适用于自然语言理解任务如文本分类、命名实体识别等。 不同于自回归模型可以同时考虑上下文中的所有词更好地捕捉依赖关系。 编码-解码模型例如T5 原理 编码-解码模型采用编码器-解码器结构其中编码器通过双向注意力机制对输入进行编码解码器通过自回归方式生成输出。特点 适用于条件生成任务如机器翻译、文本摘要等。 结合了自编码和自回归的优势但通常需要更多的参数。 三大类预训练框架对比 特点自回归模型GPT自编码模型BERT编码-解码模型T5训练方向左到右双向双向任务适用性长文本生成自然语言理解条件生成任务上下文捕捉单向上下文双向上下文双向上下文应用领域生成任务自然语言理解任务条件生成任务训练效率参数较大时效果较好效果较好且能同时处理所有词参数相对较大 这些预训练框架在不同的任务和应用场景中有各自的优势和不足选择合适的框架取决于具体任务的性质和需求。 GLM预训练框架 我们提出了一个通用的预训练框架GLM基于一种新颖的自回归空白填充目标。GLM将NLU任务形式化为包含任务描述的填空问题这些问题可以通过自回归生成来回答。 预训练目标 自回归空白填充 GLM通过优化自回归空白填充目标进行训练。在给定输入文本 x [ x 1 , ⋅ ⋅ ⋅ , x n ] x [x_1, · · · , x_n] x[x1​,⋅⋅⋅,xn​]的情况下抽样多个文本片段 [ s 1 , ⋅ ⋅ ⋅ , s m ] [s_1, · · · , s_m] [s1​,⋅⋅⋅,sm​]其中每个片段 s i s_i si​对应于输入文本 x x x中的一系列连续令牌 [ s i , 1 , . . . , s i , l i ] [s_{i,1}, ... , s_{i,l_i}] [si,1​,...,si,li​​]。 每个片段用单个 [ M A S K ] [MASK] [MASK]令牌替换形成一个损坏的文本 x c o r r u p t x_{corrupt} xcorrupt​。模型根据损坏的文本以自回归方式预测片段中缺失的令牌具体而言模型在预测一个片段的缺失令牌时可以访问损坏的文本以及先前预测的片段。为了全面捕捉不同片段之间的相互依赖关系我们随机排列了片段的顺序。这种自回归空白填充目标通过引入二维位置编码和允许以任意顺序预测片段改进了填充预训练并在 NLU 任务中相较于 BERT 和 T5 取得了性能提升。 具体而言自回归空白填充目标的最大化似然函数为 其中 Z m Z_m Zm​是长度为 m m m的索引序列的所有可能排列的集合 s z i s_{zi} szi​为 [ s z 1 , ⋅ ⋅ ⋅ , s z i − 1 ] [s_{z_1}, · · · , s_{z_{i−1}}] [sz1​​,⋅⋅⋅,szi−1​​]。每个缺失令牌的生成概率在自回归空白填充目标下被分解为 为了实现自回归生成将输入 x x x划分为两部分Part A 是损坏的文本 x c o r r u p t x_{corrupt} xcorrupt​​Part B 包含被掩蔽的片段。Part A 中的令牌可以互相关注但不能关注 B 中的任何令牌。Part B 中的令牌可以关注 Part A 以及 B 中的先行令牌但不能关注 B 中的任何后续令牌。为了实现自回归生成每个片段都用特殊令牌 [START] 和 [END] 进行填充作为输入和输出。模型的实现如下图所示 这张图片展示了GLM的预训练流程。原始文本被抽样为多个片段其中的一些被[MASK]替换然后进行自回归生成。每个片段都以[S]开始[E]结束。2D位置编码用于表示片段的内部和相互之间的位置关系。 我们通过从泊松分布中抽样长度为 l i l_i li​的片段反复抽样新片段直到至少 15% 的原始令牌被掩蔽来确定片段的数量和长度。实验证明15% 的比例对于在下游 NLU 任务中取得良好性能至关重要。 多任务预训练 在上述自回归空白填充目标的基础上GLM 引入了多任务预训练。我们考虑了两个附加目标 文档级别目标 通过抽样一个长度在原始长度的50%–100%之间的单个片段鼓励模型进行长文本生成句子级别目标 限制必须为完整句子的掩蔽片段以涵盖原始令牌的15%。这个目标旨在处理通常需要生成完整句子或段落的 seq2seq 任务。 这两个新目标都采用与原始目标相同的形式但有不同数量和长度的片段。 模型架构 GLM 使用单个 Transformer 模型对其进行了几处修改 将层归一化和残差连接的顺序重新排列以避免大规模语言模型中的数值错误。使用单个线性层进行输出令牌预测。将 ReLU 激活函数替换为 GeLUGaussian Error Linear Unit。 2D 位置编码 自回归空白填充任务的一个挑战是如何编码位置信息。为了解决这个问题GLM 引入了二维位置编码。具体而言每个令牌都用两个位置 id 进行编码。第一个位置 id 表示在损坏的文本 x c o r r u p t x_{corrupt} xcorrupt​中的位置对于被替换的片段它是相应 [ M A S K ] [MASK] [MASK] 令牌的位置。第二个位置 id 表示片段内部的位置。对于 Part A 中的令牌它们的第二个位置 id 为0对于 Part B 中的令牌它们的第二个位置 id 在1到片段长度之间。这两个位置 id 通过可学习的嵌入表投影为两个向量然后与输入令牌嵌入相加。 这种编码确保了在模型重建片段时模型不知道被替换片段的长度这与其他模型不同。例如XLNet 在推理时需要知道或枚举答案的长度而 SpanBERT 替换了多个 [ M A S K ] [MASK] [MASK]令牌并保持长度不变。 微调 GLM 通常对于下游 NLU 任务线性分类器将预训练模型生成的序列或令牌表示作为输入并预测正确的标签。我们将 NLU 分类任务重新构造为空白填充任务通过 PETPattern-Exploiting Training的方式将输入文本 x x x转换为包含单个掩蔽令牌的填充问题 c ( x ) c(x) c(x)。这个填充模板以自然语言编写以表示任务的语义例如情感分类任务可以被构造成“{SENTENCE}. It’s really [MASK]”。候选标签 y ∈ Y y∈Y y∈Y也被映射到填充的答案称为 v e r b a l i z e r v ( y ) verbalizer v(y) verbalizerv(y)。在情感分类中标签“positive”和“negative”被映射为“good”和“bad”。给定 x x x的条件下预测 y y y的概率为 微调 GLM 采用交叉熵损失具体形式如下图所示 对比 在这一节中我们讨论 GLM 与其他预训练模型的差异并关注它们如何适应下游空白填充任务。 与 BERT 的比较 与 BERT 不同GLM 在 MLM 的独立性假设下无法捕捉掩蔽令牌之间的相互依赖关系。BERT 的另一个劣势是它不能很好地填充多个令牌的空白。为了推断长度为 l l l的答案的概率BERT 需要执行 l l l个连续的预测。如果长度 l l l未知可能需要枚举所有可能的长度因为 BERT 需要根据长度改变 [MASK] 令牌的数量。这是 GLM 改进的一个方面。 与 XLNet 的比较 GLM 和 XLNet 都是通过自回归目标进行预训练的但它们之间存在两个主要区别。首先XLNet 在损坏之前使用原始位置编码。在推断时我们需要知道或枚举答案的长度这与 BERT 有相同的问题。其次XLNet 使用双流自注意机制而不是右移以避免 Transformer 内的信息泄漏。这导致了预训练的时间成本加倍。 与 T5 的比较 T5 提出了一种类似的空白填充目标以预训练编码器-解码器 Transformer。T5 为编码器和解码器使用独立的位置编码并依赖于多个 sentinel 令牌来区分被掩蔽的片段。在下游任务中只使用其中一个 sentinel 令牌导致模型容量的浪费和预训练与微调之间的不一致性。此外T5 总是按固定的从左到右顺序预测片段而 GLM 在 NLU 和 seq2seq 任务上可以使用更少的参数和数据获得更好的性能。 与 UniLM 的比较 结合了不同的预训练目标通过在自动编码框架中更改注意力掩码实现了在双向、单向和交叉注意力之间的切换。然而UniLM总是用[MASK]令牌替换掉掩蔽的片段这限制了其建模掩蔽片段及其上下文之间依赖关系的能力。与之不同GLM以自回归的方式输入前一个令牌并生成下一个令牌提高了模型对片段和上下文之间依赖关系的建模能力。 UniLMv2在生成任务中采用了部分自回归建模同时在NLU任务中使用自动编码目标。GLM通过自回归预训练来统一NLU和生成任务使其在两者之间更加高效。
http://www.dnsts.com.cn/news/127837.html

相关文章:

  • wordpress安装表前缀济南专业网站优化
  • 写作的网站有哪些网上银行登录入口
  • 双鸭山网站建设百度营销推广官网
  • 网站开发续签网站网站设计公司
  • 网站建设 h5顺义公司网站建设
  • 网站服务器在哪可以看自己注册公司流程和费用多少
  • ppt模板网站源码营销网站模板下载
  • 晋城城乡建设局网站wordpress添加快速链接
  • 深圳人才网站建设云南优化公司
  • 网站建设商虎小程序罗湖建设公司网站建设
  • 网站开发工程师任职要求动态页网站
  • 四川省城乡住房和建设厅网站安徽建站之星
  • 江苏宏远建设集团网站google浏览器下载安装
  • 菏泽公司做网站企业网站有哪几个类型
  • 建设手表商城网站多少钱wordpress错误页
  • 淘宝做代码的网站网站建站哪个品牌好
  • 自己动手建立个人网站ai生成网页设计
  • 网络营销推广专员站长seo综合查询工具
  • 深圳定制型网站建设谷歌云做网站服务器
  • 怎么请人做网站网页设计实训报告的目的
  • 服装网站建设与规划怎么做网站弹窗
  • 哈尔滨网站建设推广服务百度信息流推广教程
  • 莱芜网络营销网站的建设外链优化
  • 网站建设资讯平台人与马做网站
  • 建设电子商务网站要多少钱电商网站建设简单代码网页
  • 在线做简单的网站吗北京网站优化公司
  • 网站备案后更换主机下列关于网站开发中网友上传
  • 学建设网站广州信息流推广公司
  • 爱 做 网站学生做网站的工作室
  • 建设职业注册中心网站做网站能赚多少