网站设计psd模板,wordpress 通配符替换,网站推广关键词排名优化,wordpress首页404【NLP高频面题 - LLM架构篇】大模型使用SwiGLU相对于ReLU有什么好处#xff1f;
重要性#xff1a;★★★ #x1f4af; NLP Github 项目#xff1a; NLP 项目实践#xff1a;fasterai/nlp-project-practice 介绍#xff1a;该仓库围绕着 NLP 任务模型的设计、训练、优化…【NLP高频面题 - LLM架构篇】大模型使用SwiGLU相对于ReLU有什么好处
重要性★★★ NLP Github 项目 NLP 项目实践fasterai/nlp-project-practice 介绍该仓库围绕着 NLP 任务模型的设计、训练、优化、部署和应用分享大模型算法工程师的日常工作和实战经验 AI 藏经阁https://gitee.com/fasterai/ai-e-book 介绍该仓库主要分享了数百本 AI 领域电子书 AI 算法面经fasterai/nlp-interview-handbook#面经 介绍该仓库一网打尽互联网大厂NLP算法面经算法求职必备神器 NLP 剑指Offerhttps://gitee.com/fasterai/nlp-interview-handbook 介绍该仓库汇总了 NLP 算法工程师高频面题 使用的SwiGLU替换ReLU最重要的原因是SwiGLU可以更好的捕获序列的特征。
① 使用ReLU的FFN的计算公式
② 使用SwiGLU的FFN的计算公式
更直观的看下ReLU和SwiGLU的可视化对比
Swish 激活函数在参数 β 不同取值下的形状
SwiGLU在计算中引入了门控机制门控机制可以使用更软性的权重筛选有用的信息并且梯度更平滑。这么做有以下几个主要好处
动态门控机制SwiGLU继承了GLU的门控特性通过使用sigmoid函数作为门控器可以对输入信号进行筛选和选择性放大。这种门控机制允许模型自适应地选择哪些信息是重要的从而有助于提高模型对数据的表示能力。增加非线性和复杂度SwiGLU通过引入Swish激活函数为神经网络增添了更多的非线性使得模型能够捕捉和学习数据中更为复杂的特征和模式。提高信息流动的效率SwiGLU的门控机制使得模型能够更有效地管理和调整信息的流动减少无关信息的干扰提高了信息处理的效率。避免“dying ReLU”问题ReLU的一个主要问题是“dying ReLU”即某些神经元在训练过程中可能永远不会被激活导致这些神经元对网络的贡献为零。SwiGLU通过其动态门控机制减少了这种问题的发生。提高模型精度在某些任务中SwiGLU可以显著提高模型的精度尤其是在自然语言处理任务中如GLUE和SuperGLUESwiGLU的使用可以带来超过4%的精度提升。
拔高举一反三深刻理解门控机制并且知晓门控机制在LSTM、IA3中都有应用。
门机制控制水闸的门就能阻止或者释放水流。类似的门机制的作用是控制数据的流动。 如上图所示门的开合程度由 0.0 ~1.0 的实数表示通过这个数值控制流出的水量sigmoid 函数用于求门的开合程度sigmoid 函数的输出范围在 0.0 ~ 1.0。
① LSTM 中门控机制的应用 ② PEFT的IA3方法中门控机制的应用
IA3的思想抑制和放大内部激活通过可学习的向量对激活值进行抑制或放大。具体来说会对K、V、FFN三部分的值进行调整训练过程中同样冻结原始模型的权重只更新可学习的部分向量部分。训练完成后与Lora类似也可以将学习部分的参数与原始权重合并没有额外推理开销。 NLP 大模型高频面题汇总
NLP基础篇 【NLP 面试宝典 之 模型分类】 必须要会的高频面题 【NLP 面试宝典 之 神经网络】 必须要会的高频面题 【NLP 面试宝典 之 主动学习】 必须要会的高频面题 【NLP 面试宝典 之 超参数优化】 必须要会的高频面题 【NLP 面试宝典 之 正则化】 必须要会的高频面题 【NLP 面试宝典 之 过拟合】 必须要会的高频面题 【NLP 面试宝典 之 Dropout】 必须要会的高频面题 【NLP 面试宝典 之 EarlyStopping】 必须要会的高频面题 【NLP 面试宝典 之 标签平滑】 必须要会的高频面题 【NLP 面试宝典 之 Warm up 】 必须要会的高频面题 【NLP 面试宝典 之 置信学习】 必须要会的高频面题 【NLP 面试宝典 之 伪标签】 必须要会的高频面题 【NLP 面试宝典 之 类别不均衡问题】 必须要会的高频面题 【NLP 面试宝典 之 交叉验证】 必须要会的高频面题 【NLP 面试宝典 之 词嵌入】 必须要会的高频面题 【NLP 面试宝典 之 One-Hot】 必须要会的高频面题 …
BERT 模型面 【NLP 面试宝典 之 BERT模型】 必须要会的高频面题 【NLP 面试宝典 之 BERT变体】 必须要会的高频面题 【NLP 面试宝典 之 BERT应用】 必须要会的高频面题 …
LLMs 微调面 【NLP 面试宝典 之 LoRA微调】 必须要会的高频面题 【NLP 面试宝典 之 Prompt】 必须要会的高频面题 【NLP 面试宝典 之 提示学习微调】 必须要会的高频面题 【NLP 面试宝典 之 PEFT微调】 必须要会的高频面题 【NLP 面试宝典 之 Chain-of-Thought微调】 必须要会的高频面题 …