当前位置: 首页 > news >正文

晋江文创园网站建设成都网站建设贴吧

晋江文创园网站建设,成都网站建设贴吧,南山网站建设-信科网络,p2p网贷网站建设CLIP论文精度 Zero-shot CLIP多模态模型 Image Endecoder是一个图片编码器#xff0c;既可以是ResNet,也可以是Vision Transformer. Text Encoder和Image Encoder产生的两组特征进行对比学习#xff08;无监督训练#xff09; 分类头#xff1f;“分类头” 是指网络结…CLIP论文精度 Zero-shot CLIP多模态模型 Image Endecoder是一个图片编码器既可以是ResNet,也可以是Vision Transformer. Text Encoder和Image Encoder产生的两组特征进行对比学习无监督训练 分类头“分类头” 是指网络结构中用于执行具体分类任务的一组层将网络提取的特征转化为分类或检测结果。 CLIP训练好后没有使用微调所以也就没有分类头而利用它做推理的过程是借用了自然语言处理NLP的方法也就是prompt template. 把每个分类类别变成相应的句子句子通过之前训练好的文本编码器Text Encoder后就会得到对应数量文本的特征。做这一步的原因是因为在训练过程中输入到Text Encoder中的是一个句子为了保证模型输出的效果所以采用输入形式的一致。 关于如何将分类的每个标签变成一个句子OpenAI也提出了prompt engineering和prompt ensemble这两种方式来提高模型的准确率。 在推理的过程中对于输入的图片经过ImageEncoder后得到图片特征然后跟所有的文本特征去计算一个cosine similarity相似性将与图片最相近的一个文本挑出来完成分类任务。 categorical label限制。需要在训练或者推理时提前准备一个标签的列表以编写分类头。而CLIP则是摆脱了这种限制。 CLIP迁移性非常强因为他学习到的语义性强。 CLIP的应用图像生成、物体检测和分割、视频检索clifs。 Abstract CLIP出来前先进的视觉系统训练都需要一个提前定义好的标签集合但采用这样有限制性的监督学习很可能会模型的泛化性。所以CLIP从NLP中得到监督信息因为本文描述的监督信号非常广。CLIP使用4亿个文本-图像训练集去进行了大模型的训练。生成的模型可以直接用于下游的Zero-shot推理。OpenAI公开了CLIP的预训练模型和推理代码但没公开预训练代码。 Introduction 从原始的文本里去预训练一个模型在NLP领域取得了成功。如GPT它的模型架构同样也是与下游任务无关的所以直接应用在下游应用时无需去设计分类头等特殊处理。所以CLIP将NLP里面的这套框架应用到了视觉里面。自监督学习transformer、对比学习、掩码填空、自回归。CLIP主打泛化性。 Approach 利用自然语言的监督信号来训练一个比较好的视觉模型。好处 不需要标注数据只需要文本-图片配对集。训练时图片和文字绑定所以学习到的是一个多模态特征。 Transformer出现后为NLP带来革命性的改变开始使用具有上下文语义环境的学习方式去替代传统且复杂的Topic model和n-gram等。让其可以比较方便地进行跨模态训练。 大数据集WebImageText:WIT 由于数据集巨大训练成本高时间长所以训练效率对多模态的训练效果有直接影响。所以CLIP由于训练效率的原因使用了对比学习的方法而非预测性的方法。 仅仅把预测型的目标函数改为对比型的目标函数训练效率就提升了4倍。 模型预训练伪代码与其他对比学习没有太大区别主要是将单模态正样本替换成了多模态正样本。 CLIP数据集较大不太会产生过拟合的情况。它在最后的投射中表示和对比学习层之间仅使用了线性的投射层。同时由于数据集太大也不需要做过多的数据增强(?)唯一使用的是随机的剪裁。由于模型太耗时不好做微调所以将对比学习中的超参数temperature在模型中重新设置为可学习的参数。 训练过程 视觉方面训练了8种模型ResNet-50,ResNet-101,和三个基于EfficientNet-style model改进的ResNet变体。同时还使用了3个Vision Transformers包括ViT-B/32,ViT-B/16,ViT-L/14。 32 epochs。 使用Adam optimizer优化器 对超参数进行了grid searches,random search或者manual tuning。 bitch size 32768 使用了混精度训练 工程上的问题 训练Vision transformer比训练残差网络高效。 Experiments Zero-shot Transfer: 动机一旦借助文本训练好了这个又大又好的模型之后就可以使用文本做引导去灵活地做zero shot的迁移学习。而不必再进行微调。推理过程 Prompt engineering and ensembling: Prompt是在微调或者直接推理时用的一种方法。需要使用Prompt,是因为1.单个单词具有歧义性。2.预训练的时候输入是文本信息而非单词为了防止出现分布偏移(distribution gap)问题。所以作者使用Prompt template A photo of a {label}来描述推理时的输入可以使模型准确率得到提升。如果你已经提前知道类别那么可以添加更多的提示词来使模型的输出更加准确。Prompt ensemble就是利用多段提示词最后将结果聚合起来。 few-shot transfer每个类别拿出少量图片来做微调:将CLIP里面的图片编码器拿出来“冻住”去做linear probe对最后的分类头进行训练。 如果下游任务用全部的数据而不是zero/few shot 方法1linear probe方法2fine-tune ,把整个网络都放开直接去做端对端的学习。比linear probe更灵活、数据集大的时候效果更好。 而在CLIP中作者专门使用了linear probe是因为(1)CLIP本来就是用来研究跟数据集无关的预训练方式的能能好地反映出预训练模型的好坏(2)linear probe不用调参来适应各个数据集。 Limitations CLIP在大多数模型平均下来来看只是与比较简单的机械模型打成平手而无法与state of the art(SOTA,最前沿)的结果媲美。 扩大训练数据集是一个不太可能的方案要达到SOTA的效果需要再训练当前的1000X,所以需要有新的方法在计算和数据上更加高效。CLIP在细分类任务和抽象概念的处理上表现得较差。CLIP的泛化性较好但推理数据集不能out-of-distribution。虽然CLIP可以用zero-shot去做推理但仍然是从给定的类别里去做的选择。所以OpenAI还是想将其作为生成式的模型。数据利用率不高效。预训练数据没有经过清洗可能会带着社会的偏见。 Conclusion CLIP的宗旨就是想把NLP领域当中与下游任务无关的训练方式带到其他领域中去。CLIP方法总结在预训练阶段使用对比学习利用文本的提示去做zero shot的迁移学习。在大数据和大模型的双向加持下CLIP的效果能和之前精心设计的且是有监督训练出来的基线模型打成平手。
http://www.dnsts.com.cn/news/265129.html

相关文章:

  • 做音乐网站曲库在哪找中国有几大建设
  • 中山建网站公司网站制作昆山
  • 品牌网站建设荐选蝌蚪阿里云可以建设多个网站
  • 营销型网站的缺点网站建设行业的分析
  • 教你如何快速建站线上宣传推广方案
  • phpmysql网站模板电子信息工程
  • 做网站较好的框架快抖霸屏乐云seo
  • 网站关键字太多自定义优定软件网站建设
  • 电脑店免费建站wordpress教程 数据库
  • 句容建设网站当今做哪个网站能致富
  • 请别人做网站有风险吗好用的免费crm
  • 电商网站会员体制怎么做网站建设好后怎么制作网页
  • 什么公司做网站好做网站用php吗
  • 手机网站建设计外包app公司
  • 网站目录 index.html信息手机网站模板下载
  • 建站工作室源码网站更换服务器影响
  • 外贸网站源码下载成都十大建筑设计公司
  • 建设银行网站为什么打不开网站备案工信部时间
  • 网站更换服务器对seo的影响广告设计公司深圳品牌设计公司
  • psd企业网站模板正规品牌网站设计
  • 网站续费协议厚街做网站
  • 济南建网站要网站建设的背景及意义
  • 广州营销型网站建设怎么样企业网站模板建站怎么用
  • 做易经类的网站青海城乡住房建设厅网站
  • 黄山建设网站圣辉友联刘金鹏做网站
  • 枝江市住房和城乡建设局网站江苏网站建设企业
  • 大连中山网站建设苏州做网站优化公司哪家好
  • 网站被k的怎么办游戏推广可以做吗
  • 焦作网站建设设计公司门户营销型网站搭建
  • 网站还在建设就已经可以访问了_影响后期百度标书制作员工作内容