当前位置: 首页 > news >正文

网站的大小织梦网站主页代码在后台怎么改

网站的大小,织梦网站主页代码在后台怎么改,谷歌绘制的网站,中国建设社银行招聘网站Transformer是一种特殊的神经网络#xff0c;一种机器学习模型。 谷歌在2017年推出的原版Transformer#xff0c;论文《Attention Is All You Need》#xff0c;专注于将一种语言的文本翻译成另一种。 而我们要关注的Transformer变种#xff0c;即构建ChatGPT等工具的模型…Transformer是一种特殊的神经网络一种机器学习模型。 谷歌在2017年推出的原版Transformer论文《Attention Is All You Need》专注于将一种语言的文本翻译成另一种。 而我们要关注的Transformer变种即构建ChatGPT等工具的模型则是输入一段文本、图像或音频预测文本接下来的内容并将结果展现为接下来不同文本片段的概率分布。 你可能觉得预测下一个词与生成新文本的目标截然不同但有了这样的预测模型后要让它生成更长的文本一个简单的方法是给它一个初始片段然后从它给出的概率分布中取一个片段追加到文本末尾再用所有文本包括追加的内容进行新一轮的预测。 这个重复预测和抽样的过程正是你与GPT或其他大语言模型进行交互时所遇到的一个一个打印出来的词。它的展现过程也是它的原理。 数据如何在Transformer里流动 聊天机器人生成特定单词时背后实际在做的事情主要分5步。①分词 ②变id ③变向量 ④加位置编码 ⑤计算attention。 1、分词。将输入内容切分为多个小片段每个小片段称为tokens在文本中token往往是单词、单词片段或其他字符组合。 对于图像或声音而言token则可能代表小块图像或声音片段。 每个token对应一个向量即一组数字。目的是编码该片段的含义。 如果将向量看作高维空间中的坐标那么意思相近的词对应的向量也相近。 这些向量随后经过attention block处理使得向量能够相互交流。通过相互传递信息来更新自己的值。 例如机器学习中的model和时尚中的model含义不同attention block就是找出上下文中哪些词会改变哪些词的含义以及这些词应该更新为何种含义。 之后这些向量会经过另一种处理取决于不同的资料有的叫多层感知机multi-layer perceptron有的叫前馈层feed-forward layer。此阶段向量不再相互交流而是并行经历相同的处理。 对每个向量提出一系列问题然后根据这些问题的答案来更新向量。 这里的所有处理本质都是大量的矩阵乘法。而我们的主要目的是弄懂如何解读这些底层矩阵。 之后基本是重复这个过程attention blocks 和 multi-layer perceptron blocks 层层堆叠。 最后的目标是能将整段文字的所有关键含义以某种方式融入到序列的最后一个向量然后对这最后一个向量进行某种操作得出所有token可能的概率分布即各小块文本接下来出现的概率。 前面提到的只要能够根据给定的文本预测下一个词你能给它喂一点初始文本然后反复进行预测、抽样、追加这一过程。 在GPT出现之前GPT-3的早期演示根据初始文本自动补全故事和文章把这样的工具做成聊天机器人最基础简单的方法是准备一段文本设定用户与AI助手互动的场景即系统提示词system prompt然后将用户的初始问题或提示词作为第一段对话让模型预测AI助手会如何回应。要做好这一步还需要额外的训练步骤。 神经网络的开始端和结尾端是怎样的 深度学习是机器学习中的一种方法。 机器学习采用数据驱动反馈到模型参数指导模型行为。 比如输入图像经过模型处理后能够输出对应的描述标签。或是给定一段文本预测下一个单词。 机器学习的理念是不要在代码中明确定义如何执行一个任务而是去构建一个具有可调参数的灵活架构。机器学习最简单的形式可能是线性回归。 这条线受2个参数影响即斜率slope和截距intercept。ywxb。线性回归的目标是确定这些参数以尽可能拟合数据。 深度学习就比较复杂了比如GPT-3的参数不止2个而是有1750亿个但问题是并不是直接扩大模型参数量就可以。发现有时数据严重过拟合有时完全训练不出来。 深度学习描述的一类模型在过去几十年中这类模型展现了出色的规模化能力它们的共同点是都使用相同的训练算法即反向传播Backpropagation。要让这种训练算法在大规模应用中有效运行模型必须遵循某种特定的结构对这种结构有所了解后就能更好理解transformer对语言处理的许多选择否则有些选择可能会显得没道理。 首先无论你在构建何种模型输入的格式必须为实数数组可以是一维数列、二维数组或是更高维的数组也就是所谓的张量。输入数据通常被逐步转换成多个不同的层同样每一层的结构都是实数数组到了最后一层就看作输出。 例如文本处理的最后一层是一个数列表示接下来所有可能token的概率分布。在深度学习中这些模型的参数被称为权重weight。 这些模型的关键特征是参数与待处理数据之间的唯一交互方式就是通过加权和。虽然模型中也有一些非线性函数但它们并不依赖于参数。通常情况下加权和不会直接这样写出来而是打包成矩阵向量相乘的形式。 例如GPT-3有1750亿个weights组成了约28000个矩阵这些矩阵分为8类我们需要逐一了解各个类别的作用。 虽说现在有更大更强的模型但GPT-3作为第一个真正从机器学习破圈爆火全球的大语言模型仍具有其独特的魅力。对于更先进的模型公司往往对其具体数据保密。 当你研究ChatGPT这种工具的内部原理时几乎所有的计算过程都体现为矩阵向量乘法。 图里模型的权重用蓝色或红色标注待处理数据用灰色标注。 权重相当于模型的大脑是在训练过程中学习的决定了模型的行为模式。待处理数据则仅编码了某次运行模型时的输入比如一段示例文本。 有了以上这些基础我们来对该示例文本进行第一步的处理。 即把输入切分成小块这些小块被称为token然后转化成向量。 模型有预设的词汇库包含所有可能的词汇假设有5万个我们将遇到的第一个矩阵被称为嵌入矩阵embedding matrix。每个词都对应一列这些列决定了第一步中每个单词对应的向量将其记为。跟其他矩阵一样它的初始值随机但将根据数据进行学习。 在transformer出现之前将单词转化为向量就是机器学习的常见做法但对于初次接触的人可能略显奇怪。但它为接下来的一切奠定了基础所以我们花点时间来熟悉一下。 我们通常称其为词嵌入embedding a word从几何角度来理解这些向量将它们视为高维空间中的点。 将3个数字视为三维空间坐标很简单但词嵌入的维度往往高的多。GPT-3有12288个维度。 在三维空间中取一个二维切片并将所有点投射到该切片上。 当模型在训练阶段调整权重以确定不同单词将如何被嵌入向量时它们最终的嵌入向量在空间中方向往往具有某种语义意义。 嵌入矩阵一列对应一个单词是我们模型中的第一组权重根据GPT-3的数据词汇库里有50257个词即50257个token每个嵌入有12288维两者相乘得到权重数约为6.17亿。将该数字记入统计表要记得最后总权重数加起来应该是1750亿。 就transformer而言嵌入空间的向量不能仅视为代表单个单词它们还编码了单词的位置信息。值得关注的是这些向量能结合上下文语境。例如一个词嵌入向量国王King可能会被网络中各个模块逐渐拉扯最终指向一个更具体细致的方向。比如说居住在苏格兰lived in Scotland它通过弑君上位murdered predecessor且用莎士比亚文风描述in Shakespearean language。 思考一下你如何理解某个词。它的词义显然会受到上下文语境的影响。有时甚至来自很远的上下文因此构建能够预测下一个单词的模型时目标就是使其能有效结合上下文信息。 在第一步即根据输入文本创建向量数组时每个向量都是直接从嵌入矩阵中拉出来的。所以最开始每个向量只能编码单个单词的含义。 没有上下文信息而流经这个网络的主要目标是使这些向量能获得 比单个词更丰富更具体的含义。这种网络一次只能处理特定数量的向量称作它的上下文长度context size。 GPT-3的上下文长度为2048因此流经网络的数据有2048列每列12000维。上下文长度限制了transformer在预测下一个词时能结合的文本量。这就是为什么有些聊天机器人如chatgpt早期版本在进行长对话时时常会感觉健忘。 请注意目标输出是下一个可能token的概率分布。例如如果最后一个词是Professor而上下文包含Harry Potter这样的词紧接着前面的又是least favourite teacher如果将token视为完整单词的话那么一个训练良好的网络在叠加了Harry Potter有关知识后大概率会给Snape一词打高分。 这包含两个步骤首先用另一个矩阵将上下文中的最后一个向量映射到一个包含50000个值的列表每个值对应词库里的一个token然后用Softmax函数将其归一化为概率分布。 你可能会疑问只用最后一个嵌入来做预测有点奇怪。毕竟在最后一层中还有成千上万其他的向量都蕴含着丰富的上下文信息。这是因为在训练过程中效率更高的方法是利用最终层的每一个向量同时对紧随着这个向量的词进行预测后面再单独详述更多关于训练的细节。 若想将一串数字作为概率分布比如所有可能下一个词的概率分布那么每个值都必须介于0到1并且总和为1。但对于深度学习每一步都像是矩阵向量乘法那么默认输出完全不满足要求经常会有负值或远大于1而且几乎肯定总和不会为1。 要把任意数列转换为合理概率分布标准方法是使用softmax它使最大值最接近1而最小值接近0。softmax是对每一项取以e为底的指数函数使得数列中全是正数然后求和。并将每一项除以该总和。得到归一化后的数列它的总和为1. 如果输入中某一项显著突出那么输出中对应项就会占绝对主导这样从中抽样也只会选到最大的输入值但它比只选取最大值要柔和即当有值靠近最大值时概率分布中也会获得相当大的权重随着输入的连续变化输出也连续变化。 在某些情况下如ChatGPT利用该分布生成下一词时可以给这个函数加入一点趣味性给指数加个分母常量T它被称为温度因为它与某些热力学方程中温度的作用有些相似其效果是当T较大时会给低值赋予更多权重使得分布更均匀一些。当T很小时则较大的数值更占优势。极端情况下将T设为0意味着所有权重都给到最大值。 例如让GPT-3生成一个故事初始文本为“one upon a time there was a 每轮测试采用不同的温度温度为0表示模型总是选择最可能的词。得到的结果有点像金发姑娘的老套改编。温度越高模型就越可能选择可能性较低的词但风险也更大。 严格来说API不允许你选择大于2的温度这没有数学依据只是人为的限制可能是为了避免工具产生过于荒诞离谱的内容。 大家通常将Softmax函数的输出作为概率输入则称为logits。
http://www.dnsts.com.cn/news/63284.html

相关文章:

  • 小程序源码网站论坛黄江网站设计
  • 深圳网站建设找智恒网络南京设计公司有哪些公司
  • 安徽响应式网站建设哪家有seo内容优化是什么意思
  • 网站设计的关键免费开通网站
  • 网站模板怎么建设网站开发做美工
  • ps做网站像素大小吉林北京网站建设
  • 合肥网站建设服务公司银川制作网站
  • 网站建设小厦门网站设计公司找哪家福建小程序开发
  • 电子商务网站建设市场营销型网站建设策划书怎么写
  • 网址站点异常怎么解决漳州 网站建设公司哪家好
  • 怎么做免费的网站空间建筑英才网首页
  • 烟台北京网站建设音乐类网站建设选题背景
  • 网站建设开发电销话术wordpress文章静态化
  • 网站开发工程师职责单位网站建设目的
  • 网站建设图片链接方法阿里企业邮箱下载
  • 网站建设相关的博客有哪些做的比较好的车载嗨曲网站
  • 银川网站建设是什么10岁一12岁的创意手工
  • 做类型网站做名片最好的网站
  • 郑州做网站那静态网站是什么样
  • 网站的推广方案怎么写产品网络营销分析
  • 网站建设企业站模板数字营销师证书
  • 二手交易网站开发方式qq官网
  • 外贸自建站类型90平方装修全包价格
  • 工信部网站域名备案查询网址短链接生成器
  • 有哪些网站制作公司抖音的电子商务网站建设
  • 制作网站的方法网络广告营销的特点
  • seo案例网站企业网站为什么打不开
  • 网站收录很慢重庆网页制作设计营销
  • 南康网站建设公司宿州北京网站建设
  • 网站开发用户需求说明书太平洋手机网报价大全