当前位置: 首页 > news >正文

wordpress类似的网站宁波建设网官网

wordpress类似的网站,宁波建设网官网,在线黑科技网站,手机网站建设费用导读 大模型时代很多企业都在开发自己的大模型#xff0c;这直接刺激了大模型岗位的需求。本文为大家整理了大模型面试相关的知识点#xff0c;希望对大家面试求职有所帮助。 今天分享大模型面试相关知识点#xff0c;持续更新。 1. RAG技术体系的总体思路 数据预处理-这直接刺激了大模型岗位的需求。本文为大家整理了大模型面试相关的知识点希望对大家面试求职有所帮助。 今天分享大模型面试相关知识点持续更新。 1. RAG技术体系的总体思路 数据预处理-分块这一步骤很关键有时候也决定了模型的效果-文本向量化-query向量化-向量检索-重排-query检索内容输入LLM-输出 2. 使用外挂知识库主要为了解决什么问题 克服遗忘问题提升回答的准确性、权威性、时效性解决通用模型针对一些小众领域没有涉猎的问题提高可控性和可解释性提高模型的可信度和安全性 3. 如何评价RAG项目效果的好坏 针对检索环节的评估 MMR 平均倒排率查询或推荐请求的排名倒数Hits Rate 命中率前k项中包含正确信息的项的数目占比NDCG 针对生成环节的评估 非量化完整性、正确性、相关性量化Rouge-L 4. 大模型的幻觉问题、复读机问题是什么 幻觉问题即生成的内容是无意义的或不忠实于提供的源内容 复读机问题重复生成某些话 5. 针对问题4有没有什么解决办法 针对幻觉问题引入外挂知识库加入一些纠偏规则限制输出长度等 针对复读机问题 丰富数据集的多样性预处理时尽量过滤重复无意义的文本同义词替换等做数据增强温度参数调整后处理与过滤 6. 出现问题4的原因有哪些 针对幻觉问题幻觉问题主要分为两大类一类是生成结果与数据源不一致自相矛盾。另一类是用户问题超出了大模型的认知。针对前者可能是训练数据和源数据不一致、数据没对齐或者编码器理解能力的缺陷和解码器策略错误可能导致幻觉。后者则是用户的问题不在语言模型认知范围内。 针对复读机问题数据质量不高存在大量单一、重复文本文本过长补充当你的前面的条件文本过长时大模型的输出的几个短文本会被原始的很长的条件文本淹没继续预测下一个token的话在模型看起来可能条件仍然是差不多的此时如果使用greedy search只选择概率最大的一个token模型极大可能会将前面已经生成的短文本重新预测成概率最大的文本以此类推会一直重复下去。 7. 当前主流的开源大模型是哪个其架构具体是怎样的 当前开源影响范围最广生态建设最好的开源大模型是Meta的LLaMA。其依旧采用Transformers架构并做了如下改动 为了提高训练稳定性对每个子层做输入前置归一化归一化函数为RMSNorm受GPT-3启发为了提升性能SwiGLU激活函数替换ReLU激活函数受PaLM启发从绝对位置嵌入改为旋转嵌入受GPT-neo启发使用causal multi-head attention的一个高效实现来减少内存占用和运行时间 8. 有哪几种SFT方法 全微调Adapter TuningPrefix TuningPrompt TuningP-Tuning v1loraRLHF SFT时学习率设置为预训练阶段的10%一般会取得不错的效果 9. 什么是lora微调 在原始 PLM (Pre-trained Language Model) 旁边增加一个旁路做一个降维再升维的操作来模拟所谓的 intrinsic rank。训练的时候固定 PLM 的参数只训练降维矩阵A与升维矩阵B。而模型的输入输出维度不变输出时将BA与PLM的参数叠加。用随机高斯分布初始化A 用0矩阵初始化B保证训练的开始此旁路矩阵依然是 0 矩阵。 10. RAG的检索阶段常见的向量检索模型有哪些 ANN算法 乘积向量暴力搜索hnswlib KD树 11. 针对通用的RAG你觉得还有哪些改进点 query侧做query的纠错、改写规范化和扩展对向量数据库做层次索引提高检索效率和精度对LLM模型微调针对当前垂直领域引入知识库提升回答的专业性、时效性和正确性对最终输出做后处理降低输出的不合理case 12. 什么是LangChain LangChain为大型语言模型提供了一种全新的搭建和集成方式通过这个强大的框架我们可以将复杂的技术任务简化让创意和创新更加易于实现。有点类似于神经网络开发与tensorflow/pytorch之间的关系 13. LangChain的常用模块有哪些 document_loaders 文档加载text_splitter 文档分块embedding.huggingface 向量化vectorstores 向量存储chain.RetrievalQA 检索问答 14. SFT和RLHF优劣对比 方法优点缺点SFT1. 启动简单仅需要问答对数据就可以进行训练2. 训练简单直接对LLM进行调参大部分情况下训练几个epoch就可达到预期3. 显存资源相比于RLHF来说耗费低1. 模型的效果非常依赖于SFT数据的质量天花板取决于SFT数据标注的质量2. 对标注要求高对一条指令来说要标注很高质的回答其实是一件非常困难的事情既耗时又耗力。RLHF1. 直接利用人类偏好来进行指导大模型的训练使大模型的输出更能满足人们的要求2. 在安全性和事实性上都能有很大的提升。1. 训练消耗大量的显存2. 训练的过程中很不稳定想要成功的完成PPO的训练不是那么容易的事情3. 除了SFT阶段的数据还得标注Reward model的数据。在对齐人类偏好的过程中标谁更好比较容易但是想标谁比谁好多少又差多少这不是件容易的事情。be 本答案引用自文章(https://zhuanlan.zhihu.com/p/677341520) 15. 详细介绍一下RLHF 留个坑改天详细歇一歇 16. 大模型训练经常出现一些OOM问题在现有硬件基础下有什么性能提升trick 梯度累积 混合精度训练减轻模型参数分布式训练减少批量大小增加硬件资源数据处理与加载优化例如可以使用数据流水线技术来并行加载和处理数据减少内存中同时存在的数据量 17. LLaMA模型输入句子理论上可以无限长吗 不可以 受限于计算资源训练阶段长句子会导致梯度消失或者梯度爆炸因为它依赖前面的词进行最大似然估计作为损失函数这个最大似然估计化简一下就是连乘的形式容易造成梯度消失或者梯度爆炸推理阶段会增加预测错误率 18. 如何让大模型处理更长的文本 分块处理同时重叠保证连贯性增加模型参数量复杂化模型架构提高对更长文本的捕捉与表达能力 19. 大模型推理时显存中有那几部分数据 模型参数输入数据计算中间结果内存管理策略某些深度学习框架在推理时采用了一种延迟释放显存的策略即显存不会立即释放而是保留一段时间以备后续使用。这种策略可以减少显存的分配和释放频率提高推理效率但也会导致显存一直占用的现象。 20. 介绍下ChatGLM 首先要说起它的基座 GLM GLM 既可以做 Encoder 也可以做 Decoder。 主要通过 两种mask方式来实现 [mask]bert形式随机mask 文本中的短span[gmask]gpt 形式mask末尾的长span 在chatglm里面做生成任务时是用 [gmask]。chaglm2中完全采用 gmask来进行预训练。 在ChatGLM 的内部结构中的变换从下到上依次是 位置编码从BERT的训练式位置编码转变为旋转位置编码激活函数从BERT中的 GeLU 转变为 GLU 在ChatGLM2 中又变成了SwiGLULayerNormalization采用的是DeepNorm是对post-Normalization 的改进即在残差之后做Normalization。在ChatGLM中把 layer-normalization 改为 RMSNormalization。 在ChatGLM 2.0 中还添加了一些其他变化 FlashAttenion利用显存和内存来做加速Multi-Query Attention多个头只采用一个 KV对通过参数共享来降低显存占用 21. 介绍下GLU激活函数和SwiGLU激活函数 GLU 的核心思想是通过门控机制来过滤信息进而提高网络的表达能力和泛化能力。门控机制有助于长距离建模 SwishGLU 的核心思想是将 Swish 和 GLU 结合起来SwishGLU 实际上只是多乘了一个 g(x)。 22. LLaMA1/2的异同 首先从数据角度lamma2.0为2.0T lamma1是1.4T。其次是上下文长度 lamma1是2klamma2是4k。 最后从模型架构角度 从整体上看二者都遵循自回归 Transformer 的架构只不过内部的细节有些不同。 位置编码二者都采用了旋转位置编码Normalization二者都采用pre-normalization只不过1.0中采用原始的 LayerNormalization2.0中采用的是 RMSNorm激活函数采用SwiGLU 23. 模型在训练和推理的时候各占用显存的多少 一般来说训练占用模型参数量的16倍大小优化器、梯度、模型本身推理占用模型参数量的2倍大小fp16是一个单位参数大小对应两个字节int8是一个单位参数大小对应一个字节。 24. 详细说说Deepspeed的机制 以下内容引用自该篇文章 是一种数据并行的方法采用的ring all reduce方式。 传统的parameter server是server和client的方式client通过计算分配给自己的数据产生梯度传给serverserver做聚合然后把聚合后的参数再传给client这个方式的弊端是server容易成为瓶颈server通信量太大。另外可能一个client失败会导致其他client等待。 Ring all reduce是一种分布式的方式各个节点分配通信量。总的通信量和ps没啥变化但是通信的压力平摊到各个GPU上了GPU之间的通信可以并行进行。 假如GPU数量是N把模型参数分成N份每个GPU要存放整个参数。每个GPU也要分配训练数据。当一次迭代N个GPU之间要经过一个scatter和gather操作reduce-scatter是将不同gpu上对应的参数的gradient相加一共需要通讯N-1次。All-gather 是将合并完整的参数传到其他gpu上需要通讯N-1次。一次all reduce单卡通信量为2*sita。 Zero包括3种方案逐步递进 zero1将adam的参数分割成N份这样一个GPU上只能保存一份adam参数这对于forward没啥影响gradient需要进行一次all-reduce但是只能更新一部分参数所以W需要进行一次all-gather通信量为3Nsita存储为 12sita/N 4*sita zero2: 将adamwgradient都分割成N份梯度就不需要all-gather了只需要scatter了w需要all-gather通讯量为2N*sita zero3: 将参数adam 和gradient都分割forward的时候需要将w all-gatherbackfoward时还需要把w all-gather回来计算梯度丢掉不属于自己的w然后对梯度做reduce scatter更新w通讯量为3N*sita。 最后采用采用stage3用1.5倍的通讯开销换回近120倍的显存 另外还有ZeRO-Offload是基于Zero2将adam和gradient放到内存中在cpu内起了N个线程计算。其中的一条主线是gradient总是需要scatter的感觉这个数据并行标志。这里需要注意一点 不管是forward 还是backward都是需要有完整的w的。另外有了gradient以及adamW的参数才能更新W。 25. 什么是混合精度训练 FP64用8个字节共64位FP32用4个字节共32位FP16用2个字节共16位。在神经网络模型的训练过程中通常默认使用单精度FP32浮点数据类型来表示网络模型的权重和其他参数。 为什么需要混合精度训练呢 使用FP16训练神经网络相比使用FP32有以下优点。 内存占用减少FP16的位宽是FP32的一半所以权重等参数占用的内存也减少了一半这样就可以训练更大的网络模型或者使用更多的数据。通讯效率提高对于分布式训练特别是大模型训练通讯的开销是一个性能瓶颈通讯的位宽减少了一半就可以加快通讯速度减少等待时间提高数据流通效率。计算效率更高在一些专门的AI加速芯片上使用FP16的计算性能比FP32更快。 但是使用FP16也会带来一些问题主要有两个方面 数据溢出和舍入误差 为了利用FP16的优势提高深度学习训练的效率和性能同时避免精度溢出和舍入误差的影响可以采用FP16和FP32的混合精度训练主要涉及到一下三个重要技术点 权重备份Weight Backup损失放大Loss Scaling精度累加Precision Accumulated 26. 什么是prefix LLM和casual LLM prefix LMtoken可以相互看到输入双向注意力输出单向注意力ChatGLM、ChatGLM2、U-PaLM casualLM严格自回归从左到右的单向注意力 LLaMA-7B、LLaMa 衍生物、Qwen 27. 说一说针对MHA后续的一些计算优化工作 KV cache核心思想因为transformers是自回归每一个token的预测包含大量前文的重复冗余计算。优化点是将需要重复利用的中间结果存下来避免重复计算MQA核心思想虽然SRAM的带宽很大但是容量很小A100只有大概20M所以要进一步减少需要缓存的数据。MQA中的多头只有Q是不一样的K、V完全相同。GQA核心思想进一步减少需要缓存的数据大小K、V分组复制数据大小介于MQA和MHA之间。FlashAttention核心思想将Q、K、V切分为更小的块从HBM中加载到SRAM需要计算的时候直接从SARM中读因为目前transformers的计算效率瓶颈不在于计算速度而是IO FlashAttention涉及到很多计算trick有空单独开一篇文章来说 28. 说说attention几种常见的计算方式 self-attentiondin的attention计算在得到权重之后没有进行softmax归一化操作而是保留了权重原始的信号强度。原始权重是通过网络最后一层激活函数得到因此可以利用激活函数的特点将其值限制在0-1之间如sigmoid函数从而使得到的原始权重值可直接用于加权求和保留了权重的差异性。使用softmax操作虽然可以进行归一化但同时会弱化了权重之间的差异性有损用户兴趣的局部聚焦性。 如何学习大模型 AI 由于新岗位的生产效率要优于被取代岗位的生产效率所以实际上整个社会的生产效率是提升的。 但是具体到个人只能说是 “最先掌握AI的人将会比较晚掌握AI的人有竞争优势”。 这句话放在计算机、互联网、移动互联网的开局时期都是一样的道理。 我在一线互联网企业工作十余年里指导过不少同行后辈。帮助很多人得到了学习和成长。 我意识到有很多经验和知识值得分享给大家也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限很多互联网行业朋友无法获得正确的资料得到学习提升故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。 第一阶段10天初阶应用 该阶段让大家对大模型 AI有一个最前沿的认识对大模型 AI 的理解超过 95% 的人可以在相关讨论时发表高级、不跟风、又接地气的见解别人只会和 AI 聊天而你能调教 AI并能用代码将大模型和业务衔接。 大模型 AI 能干什么大模型是怎样获得「智能」的用好 AI 的核心心法大模型应用业务架构大模型应用技术架构代码示例向 GPT-3.5 灌入新知识提示工程的意义和核心思想Prompt 典型构成指令调优方法论思维链和思维树Prompt 攻击和防范… 第二阶段30天高阶应用 该阶段我们正式进入大模型 AI 进阶实战学习学会构造私有知识库扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架抓住最新的技术进展适合 Python 和 JavaScript 程序员。 为什么要做 RAG搭建一个简单的 ChatPDF检索的基础概念什么是向量表示Embeddings向量数据库与向量检索基于向量检索的 RAG搭建 RAG 系统的扩展知识混合检索与 RAG-Fusion 简介向量模型本地部署… 第三阶段30天模型训练 恭喜你如果学到这里你基本可以找到一份大模型 AI相关的工作自己也能训练 GPT 了通过微调训练自己的垂直大模型能独立训练开源多模态大模型掌握更多技术方案。 到此为止大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗 为什么要做 RAG什么是模型什么是模型训练求解器 损失函数简介小实验2手写一个简单的神经网络并训练它什么是训练/预训练/微调/轻量化微调Transformer结构简介轻量化微调实验数据集的构建… 第四阶段20天商业闭环 对全球大模型从性能、吞吐量、成本等方面有一定的认知可以在云端和本地等多种环境下部署大模型找到适合自己的项目/创业方向做一名被 AI 武装的产品经理。 硬件选型带你了解全球大模型使用国产大模型服务搭建 OpenAI 代理热身基于阿里云 PAI 部署 Stable Diffusion在本地计算机运行大模型大模型的私有化部署基于 vLLM 部署大模型案例如何优雅地在阿里云私有部署开源大模型部署一套开源 LLM 项目内容安全互联网信息服务算法备案… 学习是一个过程只要学习就会有挑战。天道酬勤你越努力就会成为越优秀的自己。 如果你能在15天内完成所有的任务那你堪称天才。然而如果你能完成 60-70% 的内容你就已经开始具备成为一名大模型 AI 的正确特征了。 这份完整版的大模型 AI 学习资料已经上传CSDN朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
http://www.dnsts.com.cn/news/210623.html

相关文章:

  • 网站移动端优化工具网站设计公司深圳
  • 网站开发选题申请理由网络营销模式的有形收益包括
  • 做婚庆网站有哪些开发企业网站要多少小时
  • 响应式营销网站北京建筑公司招聘信息
  • 网站开发报价表格wordpress图片缩略图不显示
  • 汉邦未来网站开发企业网站开发期末报告
  • 做游戏的网站有哪些装饰装修网站大全
  • 创意做网站公司百度搜索资源平台提交
  • 营销型网站建设要多少钱关键词在线听免费
  • 微信上打开连接的网站怎么做网站建设具体运算
  • 网站开发语言优缺点从事网站开发需要哪些知识
  • 做企业展示网站需要多少钱网站建设的基本情况
  • 绍兴建设开发有限公司网站中国最大的外包公司有哪些
  • 做网站背景的图兰州seo快速优化报价
  • 网站seo优化外包顾问网站解析怎么设置
  • 网站注册免费永久专业购物网站建设价格
  • 企业网站建设标准wix做中文网站怎么样
  • 宁波新亚建设公司网站晋江网站建设
  • 建网站 免费网站建设怎么学习
  • 呼和浩特网站推广公司上海小程序开发制作
  • 做网站编辑怎么样网站推广的方式与技巧
  • 交通建设门户网站wordpress整合ecms同步登录
  • 集团网站建设价格网站广告推广平台
  • 微信小程序商店怎么开seo是哪个国家
  • 广东省建设厅官方网站电话山西省住房城乡建设厅网站
  • 精品网站建设费用 v磐石网络分销系统小程序
  • 如何自己建设电影网站中国公共招聘网
  • 天圆地方建筑网站猪八戒网站建设报价
  • 沈阳奇搜建站网络营销技巧和营销方法
  • 鲜花网站建设项目策 划书重庆展示型网站制作