当前位置: 首页 > news >正文

陕西省煤炭建设公司第一中学官方网站图片编辑软件手机版

陕西省煤炭建设公司第一中学官方网站,图片编辑软件手机版,天津seo管理平台,石家庄最好的网站建设公司排名所谓知识注入#xff0c;其实不该脱离于LLM的基础工作原理#xff0c;然后空谈抽象概念。 知识#xff0c;也就是你问他问题#xff0c;他能输出正确的回答#xff0c;这只是一个简单的输出token的过程。输出得准了#xff0c;就是知识#xff0c;输出不准了#xff0c…所谓知识注入其实不该脱离于LLM的基础工作原理然后空谈抽象概念。 知识也就是你问他问题他能输出正确的回答这只是一个简单的输出token的过程。输出得准了就是知识输出不准了你就说它是幻觉。什么是幻觉不就是该输出的token上概率不大导致的乱输出。 所以知识注入就是你要对一个query自回归输出一个完全一致的answer。如果你愿意不考虑LLM的其他功能就为了某一个QA对服务你完全可以加训个100个epoch它必然就“记住”了。 知识注入根据知识的体量、复杂度、垂类程度不同要基于增量预训练、sft、也必须使用RLHF和DPO。 对于这么一个QA:XXX的生日是多少1980年1月23日。sft的所有loss都是先拿到正确的前述token然后计算当前token的loss。假设现在LLM训练好了对于query后续token的概率都很高除了”8“这个位置的概率几乎为0那么对于后面的“0年1月23日”如果前面这个“8”LLM吐不出来那么它们的高概率也就完全不顶用了大概率是要出所谓的“幻觉”的毕竟你现在的状况和训练时候完全不一样嘛。可这种情况放sft里loss很小。也就是说8这个数字在sft阶段会训练不完全。 这里只是一个例子实际上tokenizer大概率把1980这一整个数字绑定成一个token或者是19和80。 RLHF和DPO这类RL算法的训练目标是我当前这个token的reward和选定token后对未来value的期望要达到最高。如果出现8这个数字概率低的情况且如果value函数正常工作那么RL会知道你必须给8的概率拉高否则整个后续的reward期望会极低。RL和SFT的差距就在这里RL要考虑当前对后续的影响sft只要考虑当前这个token就好。 (RL的思想很好但是value函数正常工作这个条件没那么好保证所以RL不稳定。这是必须先sft后rl的原因。) 对于简单的知识注入例如“改变大模型的自我认知”随便给几条认知相关的内容重复的简单数据用lora训个10个epoch就能得到极好的效果。我基于qwen1.5-7b-chat尝试sft注入1000条简单的wiki的知识lora rank32epoch1lr3e-5。然后手动测试了几条wiki数据发现关于数字的会有严重幻觉例如“丹麦海峡的最长长度是多少“不仅是我的模型你百度去搜百度ai给的结果也不对。关于医学的会很差劲因为过于复杂了需要专业知识才能撑得起来我给的回答我敢信我的医学数据的每条answer的困惑度都极高这使得LLM不可能仅凭一次训练就扭转输出。但是简单知识会记得很好我让他记住他是一根香蕉(简单QA)他也记住了。最后测得c-eval评分还能维持69比微调前的71不差多少。 对于复杂的知识注入绝对不能寄希望于少量数据就完成训练。这个复杂既是指存在很多生词和知识点还是指知识体系的庞大还是指answer很长。前两个好理解第三个其实就是前面说的8的问题你answer一长中间出错的概率就高就不容易续写成功。 我们统称符合上面特点的数据为“垂类数据”。 对于垂类数据你绝不能期望仅用finetune和简单的lora就能成功。你的垂类数据和LLM的训练数据可以说是分布完全不相似的两组数据你无法通过简单的lora微调就让LLM从一个输出分布就跳到另一个完全不同的分布上。走完预训练sftrl基本是标配了。 预训练的作用是解决“眼生”的问题所谓获取知识也就是这个你希望“给个query返回一个answer”这个answer的碎片就隐藏在预训练的数据里。所以这里需要大量预训练数据。 然后是sft。为什么不直接rl因为rl存在不稳定的问题所以最好用sft先把底子打好。sft就是给了LLM一个输入输出的范式“问哪个问题就回答哪段话”。问题是问题的花样可多了要是大伙都一个问问题的方式对我们来说就没这么累了。有一批人专门干批量指令生成就是为了得到“一个问题多种表达”的数据以适应用户的需求。sft阶段一定要尽量压低loss既然干了垂类模型就千万别考虑泛用性了否则你就得重走一遍chatgpt的训练路子数据也得用人家量级的区别就是你多了一份垂类数据。Gimini今年6月有个论文指出幻觉就是loss太大你压低就没幻觉了这从上面对8的讨论也能看出来。所以一定要对单知识点做多指令QA既可以等价于多个epoch又可以防止过拟合并且知识量大就必须有海量数据支撑。 rl阶段可以选rlhf和dpo后者现在好像效果更好但是还是得看实际数据所以两种都要做。
http://www.dnsts.com.cn/news/109348.html

相关文章:

  • 仿一个展示型网站多少钱建设银行人力资源系统网站
  • 网站排名查询系统影视自助建站系统源码
  • 吉林省城乡建设厅网站6模拟建筑
  • 承德做网站的公司自己建设网站怎么做
  • 建设部网站诚信平台创业网站怎么做
  • 企业门户网站开发源码想开个网站怎么做
  • 网站建设选方舟网络高端网站建设的介绍
  • 常州网站建站公司做化验的在哪个网站里投简历
  • 现在还有做静态网站的酒店电子商务网站建设
  • 官方网站下载派的appwordpress用户名密码注册
  • 织梦网站后台一键更新没反应淮北市建筑
  • 网站站点风格合肥网络营销公司
  • 手机版的网站用什么开发建筑人网站
  • 怎么搭建自己的网站挣钱网络优化推广
  • 临沂建设大型网站建设2019年新电商法做网站
  • 本人想求做网站在门户网站上爆光怎么做
  • php网站建设全程实例开发者账号是干嘛用的
  • 自己建网站做外贸网站底部导航
  • 教育类网站框架软件开发文档是什么
  • 赣州网站推广哪家最专业便宜正品的购物app
  • 阜阳专业网站建设整合营销的案例
  • 上海专业网站制作设计公司企业网站开发方案
  • 现在建设一个网站需要什么技术台式机做网站服务器
  • 什么网站可以做产品入驻阿里主机wordpress
  • 湖北app定制开发东莞seo站内优化
  • 苏州外贸营销网站建设网站查询功能代码
  • 最好免费高清视频在线观看陕西网站建设方案优化
  • cms网站搭建好了再怎么做成都哪里做网站备案
  • 设计公司网站建设文案品牌网站建设市场分析
  • 莱阳网站开发仿cnzz 网站 源码