网站软文写作要求,网站建设公司推荐5788,北京交通管制信息网站,腾讯云服务器收费标准回顾
注意力机制 自注意力机制 自注意力机制中同样包含QKV#xff0c;但它们是同源(Q≈K≈V)#xff0c;也就是来自相同的输入数据X#xff0c;X可以分为 ( x 1 , x 2 , . . , x n ) (x_1,x_2,..,x_n) (x1,x2,..,xn)。 而通过输入嵌入层(input embedding)#xff0c…回顾
注意力机制 自注意力机制 自注意力机制中同样包含QKV但它们是同源(Q≈K≈V)也就是来自相同的输入数据XX可以分为 ( x 1 , x 2 , . . , x n ) (x_1,x_2,..,x_n) (x1,x2,..,xn)。 而通过输入嵌入层(input embedding) ( x 1 , x 2 , . . , x n ) (x_1,x_2,..,x_n) (x1,x2,..,xn)变为 ( a 1 , a 2 , . . , a n ) (a_1,a_2,..,a_n) (a1,a2,..,an)这些向量通过X来寻找X中的关键点。
而对于每个 a i a_i ai都会有对应 q i , k i , v i q_i,k_i,v_i qi,ki,viQ不再是共用的。 Q { q 1 , q 2 , . . . , q n } ; K { k 1 , k 2 , . . . , k n } ; V { v 1 , v 2 , . . . , v n } Q \{q_1,q_2,...,q_n\};K \{k_1,k_2,...,k_n\};V \{v_1,v_2,...,v_n\} Q{q1,q2,...,qn};K{k1,k2,...,kn};V{v1,v2,...,vn}
在自注意力机制中以输入数据X自身中的 x i x_i xi作为查询对象(注意力机制中的Q自身的其他 x x x作为被查询对象V。也就是自己作为查询与被查询对象。
计算过程
① 计算QKV 要得到QKV则需要使用三个参数 W Q , W K , W V W_Q,W_K,W_V WQ,WK,WV这三个参数都是可训练的而且所有 a a a共享。 公式 q i a i ∗ W Q q_i a_i*W_Q qiai∗WQ k i a i ∗ W K k_i a_i*W_K kiai∗WK v i a i ∗ W V v_i a_i*W_V viai∗WV 而这个计算过程可以写为矩阵乘法实现并行计算。 ② 计算Q与K相似度概率 每个 q i q_i qi都有一次作为查询对象所有的 k k k计算与其的相似度与它相同的概率。 计算相似度的方法与注意力机制是相同都是q与k进行点乘与scale得到相似度其中 d k d_k dk为k的尺寸也就是向量 k k k包含多少个数据。
计算过程如图所示每个 q i q_i qi都计算与所有 k k k的相似度。 计算过程也可以表示为矩阵运算
③ 汇总权重得到包含注意力信息的结果 计算出Q与K的相似度也就是得到了对于 q i q_i qi各个 v i v_i vi的权重。 最后将得到的权重 a ^ \widehat{a} a 与每个 v i v_i vi进行点乘运算再将结果相加就可以得到包含了对于 q i q_i qil来说哪些重要与不重要的数据 b i b_i bi然后用 b i b_i bi来代替 a i a_i ai 计算过程也可以转换为矩阵运算
与注意力机制的不同
注意力机制是一个很宽泛宏大的一个概念QKV 相乘就是注意力但是他没有规定 QKV是怎么来的他只规定 QKV 怎么做。 Q 可以是任何一个东西V 也是任何一个东西 K往往是等同于 V 的同源K和 V 不同源不相等可不可以。
而自注意力机制特别狭隘属于注意力机制的注意力机制包括自注意力机制的他不仅规定了 QKV 同源而且固定了 QKV 的做法规定了QKV是如何得到的。
总结
自注意力机制是规定了数据自身来作为查询对象与被查询对象。