辅助网站怎么做的,wordpress默认插件,昆明seo外包,广告公司名字有创意学习前#xff1a;
五大问题#xff1a;
为什么SwiGLU激活函数能够提升模型性能#xff1f;RoPE位置编码是什么#xff1f;怎么用的#xff1f;还有哪些位置编码方式#xff1f;GQA#xff08;Grouped-Query Attention, GQA#xff09;分组查询注意力机制是什么…学习前
五大问题
为什么SwiGLU激活函数能够提升模型性能RoPE位置编码是什么怎么用的还有哪些位置编码方式GQAGrouped-Query Attention, GQA分组查询注意力机制是什么Pre-normalization前置了层归一化使用RMSNorm 作为层归一化方法这是什么意思还有哪些归一化方法LayerNorm将self-attention改进为使用KV-Cache的Grouped Query怎么实现的原理是什么 Embedding
Embedding的过程word - token_id - embedding_vector其中第一步转化使用tokenizer的词表进行第二步转化使用 learnable 的 Embedding layer。
这里的第二步不是很明白怎么实现的需要再细化验证 RMS Norm
对比Batch Norm 和 Layer Norm都是减去均值Mean除以方差Var还加有一个极小值最终将归一化为正态分布N(0,1)。只不过两者是在不同的维度(batch还是feature)求均值和方差其中减均值re-centering 将均值mean变换为0除方差re-scaling将方差varance变换为1。
参考知乎的norm几则 RoPE(Rotary Positional Encodding)
绝对Positional Encodding的使用过程word - token_id - embedding_vector position_encodding - Encoder_Input其中第一步转化使用tokenizer的词表进行第二步转化使用 learnable 的 Embedding layer。将得到的embedding_vector 和 position_encodding 进行element-wise的相加然后才做为input送入LLM的encoder。 理解LLM位置编码:RoPE