重庆便宜做网站的,关键词优化软件,如何网站关键词优化,厦门网站建设制作工具一、seq2seq任务
特点#xff1a;输入输出均为不定长的序列 自回归语言模型#xff1a; 由前面一个字预测下一个字的任务 encoder-decoder结构#xff1a; Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案 Encoder将输入转化为向量或矩阵#xff0c;其…一、seq2seq任务
特点输入输出均为不定长的序列 自回归语言模型 由前面一个字预测下一个字的任务 encoder-decoder结构 Encoder-Decoder结构是一种基于神经网络完成seq2seq任务的常用方案 Encoder将输入转化为向量或矩阵其中包含了输入中的信息 Decoder利用这些信息输出目标值 在这里encoder的output和decoder每一个时间层的output拼接用一个线性层和softmax激活函数计算权重attention机制再把权重张量和encoder的output点乘把这个结果和decoder这个时间层的output拼接再过一层gru和线性层得到下一个字的概率分布。 attention思想: 从decoder的query和encoder的key结合计算出权重判断文本的重点再作用在value上 soft attention: hard attention: teacher forcing:在预测下一个字时用输入decoder的正确的字来预测这样做的问题是在预测时如果一个字错后面会出现连环反应就像在平时老师经常把正确答案给学生在考试时学生答题效果不好如果用非teacher forcing会出现在训练模型时一个字错导致后面出现连环反应。
二、transformer 在encoder-decoder交互attention阶段q矩阵由decoder提供与encoder的output里的key计算出attention矩阵然后作用在encoder提供的value矩阵上再过残差机制曾和LN层使模型更稳定防止梯度爆炸和梯度消失 mask attention: 将输入decoder的文本做一次attention对输出的矩阵进行mask因为预测的过程中预测下一个字的过程中我们看不到下一个字所以前一个字对下一个字没有attention)
通过mask控制训练方式:
三、采样策略
beamsearch在前文已经介绍过 temperature sample是基于对softmax的改进采样 当T越大时不同样本间的概率差值会减小 top-K采样从概率最高的K个样本中采样 top-P采样采样时先按概率从高到低排序从累加概率不超过P的范围内选择