网站开发要注意安全性,网站主办单位变更,晋中建设局查合同网站,网推平台RoBERTa 会重复一个语句10次#xff0c;然后每次都mask不同的15%token。丢弃了NSP任务#xff0c;论文指出NSP任务有时甚至会损害性能。使用了BPE
ALBERT 1. 跨层参数共享
可以共享多头注意力层的参数#xff0c;或者前馈网络层的参数#xff0c;或者全部共享。 实验结果…RoBERTa 会重复一个语句10次然后每次都mask不同的15%token。丢弃了NSP任务论文指出NSP任务有时甚至会损害性能。使用了BPE
ALBERT 1. 跨层参数共享
可以共享多头注意力层的参数或者前馈网络层的参数或者全部共享。 实验结果发现共享注意力层基本没有性能损失。
2. 词向量因式分解
将词汇表改成两个矩阵乘。
3. 句子顺序预测
加入句子顺序预测任务代替NSP任务。句子预测分为正序还是倒序。
DistillBERT 1. 有监督损失
[MASK]对应的输出的损失
2. 蒸馏损失
使用teacher模型的概率作为指导信号也是交叉熵但是此时是软标签。
3. 词向量余弦函数
计算隐含层教师模型和学生模型的向量余弦距离。