wap手机网站尺寸,凡科免费网站建设,wordpress密码邮件,女性手表网站一、前言
本文章作为学习2023年《李宏毅机器学习课程》的笔记#xff0c;感谢台湾大学李宏毅教授的课程#xff0c;respect#xff01;#xff01;#xff01; 读这篇文章必须先了解self-attention#xff0c;可参阅我上一篇。
二、大纲
Transformer问世原理剖析模型训…一、前言
本文章作为学习2023年《李宏毅机器学习课程》的笔记感谢台湾大学李宏毅教授的课程respect 读这篇文章必须先了解self-attention可参阅我上一篇。
二、大纲
Transformer问世原理剖析模型训练
三、Transformer问世
2017 年在文章《Attention Is All You Need》被提出的。应用于seq2seq模型当时直接轰动。
四、原理剖析
两部分组成Encoder 和 Decoder
Encoder 结构 接下来从大到小一层层剥开
剥一下 输入一排向量输出一排向量 剥两下 Encoder 由多个Block组成串联起来 剥三下 Block装的是啥原来是Self-attention 剥四下 Self-attention原来加入了residual和Layer Normal至此剥完了。
说明 上图自底向上看关键点 1、residual结构输入接到输出送入下一层残差结构 2、Layer Normal具体如下图 算出标准差和均值后套用公式计算即可。
以上就是Encoder的全部了 论文中是这么画图表达的 注Positional Encoding是self-attention的位置资讯。
Decoder 结构 有两种方法生成输出Auto Regressive 和 Non Auto Regressive。
Auto Regressive 给个START符号把本次输出当做是下一次的输入依序进行下去。
Non Auto Regressive 输入是一排的START符号一下子梭哈突出一排输出。
Encoder结构长啥样
接下来看下结构长啥样先遮住不一样的部分其他部分结构基本一致只不过这里用上了Masked Multi-Head Attention
Masked Multi-Head Attention 啥是Masked Multi-Head AttentionMasked有啥含义 可以直接理解为单向的Multi-Head Attention而且是从左边开始 说明这也很好理解右边的字符都还没输出出来怎么做运算因此只能是已经吐出来的左边的内容做self-attention这就是masked的含义。
遮住的部分是啥cross attention
最后这边遮住的部分到底是啥玩意 别想太复杂就还是self-attention。 corss的意思就是vk来自Encoderq来自Decoder仅此而已。 其实也好理解Decoder是去还原结果的那可不得抽下Encoder编码时候的资讯和上下文语义信息才能还原缺一不可。 比喻下前者让输出紧扣题意后者让其说人话。
小结 至此Transformer的结构就阐述完了无非就是Encoder Decoder建议自己在草稿纸上画画能够加深印象。
五、模型训练
transformer的模型训练用的还是cross entropy。 实战过程中的tips
copy mechanism 例如 Machine Translation机器翻译可能使用原文复制这个技能对于模型而言比较容易毕竟它不需要创造新词汇了嘛这就是copy mechanism。Guided Attention
意思就是不要乱Attention有的放矢地让模型做attention。
Beam Search 基本思想就是不要步步好有可能短期不好但是长期更好。说的和人生似的。 如果模型需要有点创造力不适合用此方法这是实做后的结论。
训练过程记得让模型看些负样本不至于模型一步错步步错schedule sampling方法。
五、小结
最基本的掌握好Encoder和Decoder就很可以了其他的在实做过程中遇到问题再问问AI工具。