当前位置: 首页 > news >正文

wordpress 知名站点凡科网注册

wordpress 知名站点,凡科网注册,重庆市公路建设网站,阿勒泰地区住建设局网站自学参考#xff1a; Transformer:Attention Is All You Need Transformer论文逐段精读 视频课 课件资料 笔记 一、引入 seq2seq#xff1a;输入一个序列的向量作为input#xff0c;output的长度由机器自己决定seq2seq model应用: 语音辨识 输入是声音讯号的一串vector 输出… 自学参考 Transformer:Attention Is All You Need Transformer论文逐段精读 视频课 课件资料 笔记 一、引入 seq2seq输入一个序列的向量作为inputoutput的长度由机器自己决定seq2seq model应用: 语音辨识 输入是声音讯号的一串vector 输出是语音辨识结果即声音讯号对应的文字输出长度由机器自行决定 机器翻译 输入一种语言的句子长度为N 输出另一种语言的句子长度为N’N和N’之间的关系由机器自行决定 语音翻译 输入一种语言的语音 输出另一种语言的文字 不能用以上两种简单拼接因为很多语言并没有对应的文字例如一些方言 语音合成Text-to-Speech (TTS) Synthesis 输入文字 输出声音讯号 聊天机器人Chatbot 输入和输出都是文字利用人的对话进行train 问答系统Question Answering (QA) 输入和输出都是文字序列 许多nlp任务都可以解读为QA任务例如翻译、摘要、情感分析。而QA问题就可以用seq2seq model来解决 语法分析Syntactic Parsing 树状结构也可以视为一个sequence从这个角度切入语法分析问题也可以视为 输入一个语句 输出一个代表语法分析树的序列 多标签分类multi-label classification multi-class classification:从多个class里为样本选某一个classmulti-label classification:同一个样本可属于多个class 实体检测Object Detection 二、 seq2seq’s model Encoder Decoder encoder 输入一排向量序列 输出另一排同样长度的向量序列 可使用self-attention、RNN、CNN 进一步分析,每个block都包含若干层(例如下图中是self-attentionFC) 每个block输入一排向量,输出一排向量 在transformer中 在送入block前要先进行positional encoding 每个block中的架构为 multi self-attentionresidual connection把这个vector加上其input作为output(残差网络)layer normalization对同一个feature同一个example不同的dimension计算mean和standard deviation 区别batch normalization:是对不同example,不同feature的同一个dimension,计算mean跟standard deviation FC network也有residual架构把residual结果再做一次layer normalization得到的输出才是residual network里一个block的输出 decoder 以Autoregressive Decoder为主AT 向decoder输入encoder产生的向量 在decoder可能产生的文字里多加一个特殊字符BEGINBOSbegin of sentence。在nlp问题中每个token用一个one-hot的vector来表示其中一维是1其他全0而BEGIN也用one-hot vector表示 decoder输出的一个向量长度和vocabulary size取决于输出的单位。本例中输出中文则size是中文方块字的数目一样。在产生这个向量前跑一个softmax分数最高的一个中文字即为最终的输出 把“机”作为decoder新的input原来decoder的输入有BEGIN和“机” 根据这两个输入输出一个蓝色的向量 根据这个蓝色的向量里给每一个中文的字的分数来决定第二个输出再作为输入继续输出后续的字以此类推…… decoder会把自己的输出作为接下来的输入之一当decoder看到错误的输入再被decoder自己吃进去可能会造成error propagation,一步错步步错 ⇒解决teacher forcing技术 机器自行决定输出的长度特别符号ENDEOS 在transformer中除了中间部分encoder和decoder没有太大的差别。最后部分可能会再做一个softmax使得它的输出变成一个概率分布 Masked self-attention:产生输出时不能再看”右边“的部分 ⇒因为实际上就是顺次产生的 Non-autoregressive (NAT) NAT不是依次产生而是一次吃的是一整排的 BEGIN 的 Token把整个句子一次性都产生出来 问题如何确定BEGIN的个数 方法① 另外训练一个 Classifier,吃 Encoder 的 Input,输出是一个数字,代表 Decoder 应该要输出的长度,方法②给它一堆 BEGIN 的 Token,比如输出的句子的最大长度长度,不超过 300,给它 300 个 BEGIN,然后就会输出 300 个字。什麼地方输出 END表示这个句子结束。 NAT的好处 并行化。NAT 的 Decoder 不管句子的长度如何,都是一个步骤就产生出完整的句子,所以在速度上,NAT 的 Decoder 比AT 的 Decoder 要快,容易控制输出长度。 常用在语音合成有一个 Classifier决定 NAT 的 Decoder 应该输出的长度,并以此调整语音的速度。比如要让你的系统讲快一点,那你就把那个 Classifier 的 Output 除以二,它讲话速度就变两倍快如果你想要这个讲话放慢速度,就把Classifier 输出的长度乘两倍。 但是虽然表面上看起来有种种的厉害之处,尤其是平行化是它最大的优势,但是 NAT 的 Decoder ,它的 Performance,往往都不如 AT 的 Decoder。 ⇒ Multi-Modality Encoder-Decoder之间的信息传递CrossAttention 有两个输入来自EncoderEncoder 提供两个箭头 Decoder 提供了一个箭头 Encoder输入一排向量,输出一排向量 a 1 , a 2 , a 3 a^1,a^2,a^3 a1,a2,a3经过transform产生 Key1 Key2 Key3 k 1 , k 2 , k 3 k^1,k^2,k^3 k1,k2,k3)以及 v 1 , v 2 , v 3 v^1,v^2,v^3 v1,v2,v3. Decoder 会先吃 BEGIN,得到一个向量,输入多少长度的向量,输出就是多少向量。乘上一个矩阵做一个 Transform,得到一个 Query 叫做 q q q 利用q,k计算attention的分数并做Normalization得到 α 1 ′ , α 2 ′ , α 3 ′ , \alpha_1,\alpha_2,\alpha_3, α1′​,α2′​,α3′​, α 1 ′ , α 2 ′ , α 3 ′ , \alpha_1,\alpha_2,\alpha_3, α1′​,α2′​,α3′​,与 v 1 , v 2 , v 3 v^1,v^2,v^3 v1,v2,v3做weighted sum加权求和得到 v v v. v v v丢进Fully-Connected 的Network做接下来的任务。 总之Decoder 就是产生一个 q q q,去 Encoder 抽取信息出来,当做接下来的 Decoder 的Fully-Connected 的 Network 的 Input 其中Decoder可以看Encoder中的许多层而不一定只是最后一层。 training 以语音辨识为例 训练数据一段音频与对应的文字文字为one-hot编码的向量 训练过程Decoder输出的是概率分布。可以通过输出的概率分布与Ground Truth之间的计算交叉熵Cross Entropy并求梯度实现优化交叉熵的值越小越好。 在训练Decoder时会输入“正确答案”而不是自己产生的答案 ⇒Teacher Forcing (但测试的时候,显然没有正确答案可以给 Decoder 看) 三、Tips (for seq2seq model) Copy Mechanism decoder没必要自行创造输出它要做的事也许是从输入的东东里复制一些出来而非创造词汇 chatbot 摘要 Guided Attention 有时seq2seq model训练会产生奇怪的结果比如漏字没看到 ⇒强迫机器一定要把输入的东西全看过如TTS强迫attention要用某种方式 例如对语音合成或者是语音辨识来说,我们想像中的 Attention,应该就是由左向右 束搜索 -beam search 四、评测标准Optimizing Evaluation Metrics BLEU Score 是 Decoder产生一个完整的句子以后再去跟正确的答案一整句做比较。但是在训练时是对每一个生成的token进行优化使用的指标是交叉熵。 换言之训练的时候,是看 Cross Entropy,但是我们实际上你作业真正评估的时候,看的是 BLEU Score 不能把BLEU作为LOSS⇒无法微分。 解决办法遇到你在 Optimization 无法解决的问题,用 RL 硬 Train 一发。遇到你无法 Optimize 的 Loss Function,把它当做是 RL 的 Reward,把你的 Decoder 当做是 Agent。 Scheduled Sampling 由于Teacher Forcing的存在训练跟测试的情景是不一致。Decoder 在训练的时候,永远只看过正确的东西,那在测试的时候,只要有一个错,那就会一步错 步步错。 解决给 Decoder 的输入加一些错误的东西⇒Scheduled Sampling。 问题会损害平行化的能力。
http://www.dnsts.com.cn/news/180845.html

相关文章:

  • asp网站开发工具镇江网站seo公司
  • 博客网站seo免费自助建站模板
  • 公众号做视频网站会封吗wordpress分页函数
  • 服装网站建设运营规划wordpress建站门户
  • wordpress导入网站世界互联网峰会2022
  • app手机网站模板重庆妇科医院排名前十名
  • 网站外地备案wordpress设置备案号
  • 网站架构设计师简历小型展台设计
  • 中文域名查询官网做seo用什么网站系统
  • 杭州网站备案做美食网站的项目背景
  • 传奇辅助网站怎么做百度做广告多少钱
  • 做下载网站用阿里云的什么产品月子中心网站设计
  • 网站模版下载网站软件开发招聘
  • 邯郸市住房和城乡建设网站wordpress 文章转义
  • 南京专业制作网站快手刷粉网站推广
  • 网站开发合同的时间期限界定校园推广的方式有哪些
  • 网站跟别的做的一样的农村自建房设计图纸
  • 龙港做网页网站制作官方网站下载安装云支付
  • 芜湖网站建设怎么做网站开发平台选择
  • 学校网站开发模式德阳市建设管理一体化平台网站
  • 建站网址不安全茶叶建设网站的优势
  • 桐城建设局网站广东知名网站建设
  • 珠海网站建设杰作东莞网站推广怎么做
  • 免费可信网站认证摄影设计英文
  • 石家庄做网站 vtkjwordpress 主题面板
  • 网站内容设计基本原则毕业设计答辩网站开发原理
  • 网站开发 图片储存网站做搜索引擎的作用是什么
  • 顺德建设局网站wordpress实现论坛功能
  • 建网站平台安全性文山市住房和城乡建设局网站
  • 网站刷排名工具wordpress打开速度很慢