企业网站模板 免费下载,自学网站建设教程,亦庄做网站,网页设计模板流程图Transformer以及BERT阅读参考博文
Transformer学习#xff1a;
已有博主的讲解特别好了#xff1a;
李沐#xff1a;Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎#xff1a;Transformer模型详解#xff08;图解最完整版#xff09; - 知乎
个人杂想
已有博主的讲解特别好了
李沐Transformer论文逐段精读【论文精读】_哔哩哔哩_bilibili知乎Transformer模型详解图解最完整版 - 知乎
个人杂想 Q K T ∗ V QK^{T}*V QKT∗V中 Q K T QK^T QKT其实可以理解为相似性矩阵S那么 S ∗ V S*V S∗V其实就相当于相似性矩阵对原始的嵌入加权求和。这感觉就是GAT的一个思想源泉。残差连接和concat挺重要的
BERT BERT模型架构详解 - 知乎 李沐BERT 论文逐段精读【论文精读】_哔哩哔哩_bilibili