网站推广在线推广,网页设计思路说明200字,做纯静态网站怎么样,阜宁县住房与城乡建设局网站文章目录 什么是注意力如何实现注意注意力的计算过程总结 什么是注意力
在一张图像中#xff0c;包含了各种信息#xff0c;而我们会自动关注重要的信息。下图是注意力热力图#xff0c;可以发现人们会注意兔子的脸这些重要信息。
而在深度学习中#xff0c;输入数据包含… 文章目录 什么是注意力如何实现注意注意力的计算过程总结 什么是注意力
在一张图像中包含了各种信息而我们会自动关注重要的信息。下图是注意力热力图可以发现人们会注意兔子的脸这些重要信息。
而在深度学习中输入数据包含了重要的数据与不重要的数据但对于一个模型来说它不知道哪些数据是重要的。 因此提出了注意力机制如何在深度学习模型上使用注意力让模型关注于重要的数据。
如何实现注意
Query查询查询的范围可以理解为要查询什么特征。自主提示即主观意识的特征向量Key键被对比的项也就是被查询物体的特征。非自主提示即被查询物体的突出特征信息向量Value值被查询的物体本身也就是原图上的各个物体。代表被查询的物体本身的特征向量通常和Key成对出现 要实现注意力机制也就是要得到Q与V的相似度哪些V对Q更加重要。
注意力的计算过程
① 计算Q与K的相似度 一般是使用点乘内积来计算Q与K中的每个事物的相似度得到Q与 k 1 k_1 k1的相似度 s 1 s_1 s1Q与 k 2 k_2 k2的相似度 s 2 s_2 s2等等。 然后对得到的相似度执行softmax归一化操作: s o f t m a x ( s 1 , s 2 , . . . , s n ) softmax(s_1,s_2,...,s_n) softmax(s1,s2,...,sn)得到n个概率 ( a 1 , a 2 , a n ) (a_1,a_2,a_n) (a1,a2,an)也就是各个K对Q的重要性。 ② 汇总各个物体的相似度 通过前面的计算我们得到了各个K与Q的相似度相当于我们得到了各个V与Q的相似度也就是各个V的权重此时Q已经失去作用。然后我们需要将这些相似度进行汇总得到一张图像这张图像上包含了哪些信息重要与不重要。
计算方法 a i a_i ai与 v i v_i vi相乘再相加得到新的 V ′ V V′ V ′ a 1 ∗ v 1 a 2 ∗ v 2 . . . a n ∗ v n V a_1*v_1a_2*v_2...a_n*v_n V′a1∗v1a2∗v2...an∗vn
这样的话就得到了一个新的 V’这个新的 V’ 就包含了哪些更重要与更不重要的信息在里面然后用 V’ 代替 V。
一般来说KV但在Transformer中K可以!V但K与V必须存在某种联系只有这样才能通过QK的点乘来指导V哪些重要与不重要。
③ 计算过程的问题与解决方法 在计算出QK后并进行softmax操作时若各个概率值相差大则会导致softmax输出的值很极端。 因此需要对QK点乘的值进行缩放操作(scale)公式如图所示其中 d k d_k dk是K的通道数。 通过缩放就可以避免softmax操作的输出极端注意力机制的结构变为这样。
总结
本质上来说注意力机制就是网络根据提供的信息Q得到各个V的一个权重这个权重代表着Q与V的相关性。