做网站如何不被忽悠,做自己的网站要多少钱,网站建设的流程推广方案,做网站用的编程工具一篇试图统一生成任务和编码任务的工作#xff0c;就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单#xff0c;就是在输入的时候添加instruction tokens来指引模型做representation还是generation#xff0c;然后各自算损失。representation任务用的是d…
一篇试图统一生成任务和编码任务的工作就是把只能完成生成任务的GPT改成既能生成又能encode。思路其实很简单就是在输入的时候添加instruction tokens来指引模型做representation还是generation然后各自算损失。representation任务用的是document和query的对比学习。把最后一层的token给mean pooling只对word tokens做不对instruction做出一个embedding算对比损失做generation的时候就按generation的流程来思路很简单没什么特别的。另一点细节是representation的时候是没有mask的generation的时候才做mask