当前位置: 首页 > news >正文

网站设计制作费用青岛房产网站建设

网站设计制作费用,青岛房产网站建设,泾川县门户网站留言,自己免费制作app平台大家好#xff0c;这里是好评笔记#xff0c;公主号#xff1a;Goodnote#xff0c;专栏文章私信限时Free。本文详细介绍多模态模型Coca#xff0c;在DALLE 3中使用其作为captioner基准模型的原因和优势。 文章目录 ALBEF论文模型结构组成训练目标 CoCa​论文模型结构CoCa… 大家好这里是好评笔记公主号Goodnote专栏文章私信限时Free。本文详细介绍多模态模型Coca在DALL·E 3中使用其作为captioner基准模型的原因和优势。 文章目录 ALBEF论文模型结构组成训练目标 CoCa​论文模型结构CoCa 与 ALBEF 对比 训练过程训练目标 历史文章机器学习深度学习 首先我们需要知道Coca是主要用于图像生成文本的。在此之前我们已经介绍了BLIP和BLIP2但是BLIP模型生成的文本描述较为简单模型训练则需要更详细、准确的图像描述或字幕。本文将介绍一个新模型CocaContrastive Captioners谷歌出品OpenAI的DALL·E 3在处理图像-文本训练数据集就是基于谷歌的CoCa模型微调一个image captioner用来合成图像的caption。 DALL·E 3介绍参考DALL·E系列文章DALL·E 3模型及其论文详解 ALBEF CoCa可以理解成是ALBEF模型的一个后续工作它与ALBEF模型类似所以我们就先简要介绍一下ALBEF模型再给出CoCa模型的介绍及其在ALBEF基础上做的改进。 ALBEF (Align Before Fuse) 是一个多模态学习模型专注于图像和文本的联合表示学习。它通过对比学习 (Contrastive Learning) 和多模态特征对齐 (Alignment) 来实现任务优化同时为下游任务提供强大的基础表示。 论文 Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 模型结构 组成 ALBEF 由三部分组成如下 一个图像编码器一个文本编码器一个多模态编码器 训练目标 图像-文本对比损失image-text contrastive loss 对齐图像和文本特征最小化同一图像-文本对的特征距离最大化不同图像-文本对的特征距离。用于在特征融合之前对图像和文本的单模态表示进行对齐。图像-文本匹配损失image-text matching loss 判断图像和文本是否匹配进一步提高特征对齐效果。用于学习图像与文本之间的多模态交互。遮蔽语言建模损失masked-language-modeling loss在文本中随机掩盖部分单词通过上下文信息预测掩盖的单词。用于学习图像与文本之间的多模态交互。 为了提升对噪声数据的学习能力我们在训练过程中生成伪标签pseudo-targets这些伪标签由动量模型momentum model即基础模型的滑动平均版本生成并作为额外的监督信号。 有没有发现ALBEF和BLIP模型的训练目标极其相似因为他们来自一个团队。 BLIP参考本系列历史文章多模态论文笔记——CLIP、BLIP CoCa​ CoCa 是 ALBEF 的后续工作在保持多模态特征对齐的同时通过引入可学习的池化机制和统一的 Decoder 架构更适合生成任务如图像描述生成。这种设计不仅提升了多模态任务的性能也在生成任务上展现了显著的优势。 CoCa 是谷歌提出的一种图像-文本对齐模型旨在同时优化对比学习contrastive learning和图像描述image captioning的任务。其主要特点是统一了对比学习和生成任务通过共享的编码器和解码器框架完成多任务学习生成更为准确且多样的图像描述。 论文 CoCa: Contrastive Captioners are Image-Text Foundation Models 模型结构 下面我们先介绍CoCa的模型结构。它是构建在encoder-decoder的基础上的。它的结构如下 CoCa 与 ALBEF 对比 相似点 整体结构CoCa 和 ALBEF 都采用 “图像分支 文本分支” 的结构左边是图像编码器 (Image Encoder)右边是文本处理器 (Text Branch)。多模态融合两者都需要将图像特征和文本特征进行融合利用对比损失 (ITC, Image-Text Contrastive Loss) 和语言建模损失 (Captioning Loss) 来联合训练。 主要区别 文本分支的结构 在 CoCa 中文本分支完全使用 Decoder而 ALBEF 则使用 Encoder 来抽取文本特征。 Decoder 的意义CoCa 的 Decoder 更倾向于语言生成任务Language Modeling不仅能抽取文本特征还能自然支持语言生成任务如 Captioning。Encoder 的意义ALBEF 的 Encoder 主要用于文本特征的理解适用于对比学习 (Contrastive Learning) 任务。 可学习的图像特征池化 (Attentional Pooling) CoCa 在图像分支的池化操作中引入了可学习机制能够根据具体任务优化图像特征提取而 ALBEF 使用的是固定规则的特征池化。多模态文本处理器输入 在 CoCa 中单模态文本解码器 和 多模态文本解码器 是独立处理的没有直接的输入输出关系。在 ALBEF 中单模态文本编码器 的输出被用作 多模态文本编码器 的输入以实现图像和文本的有效对齐。 CoCa 中的 单模态文本解码器 (Unimodal Text Decoder) 和 多模态文本解码器 (Multimodal Text Decoder) 是独立工作的并且它们的输入和输出是分开处理的。不会将单模态文本解码器的输出作为多模态文本解码器的输入多模态文本解码器的输入也是原始文本或者文本经特定编码后的表示。 CoCa 的架构设计使得 单模态文本解码器 和 多模态文本解码器 之间的任务和输入输出保持独立。 ALBEF中会将单模态文本编码器的输出作为多模态文本编码器的输入。 Attentional Pooling 可学习的图像特征池化方式能够针对不同任务学习出更有用的视觉特征。在特征融合前通过 Attention 机制选择性地提取图像 Token而不是简单地用固定规则池化特征。 训练过程 它由一个 Image Encoder 和两个 Text Decoder 组成均采用Transformer模型。 图像编码器 (Image Encoder) 使用一个视觉变换器例如 ViT对输入图像进行编码生成一系列特征表示。这些特征表示通过注意力池化进一步提取分别生成两个特征 对比特征 (Contrastive Feature) 专门的 cls-token 用于对比学习通过与文本的 cls-token 特征进行对比。描述特征 (Captioning Feature) 其他的图像特征经过 Attentional Pooling 后传入多模态 Text Decoder用于文本生成任务作为多模态解码器的输入。 采用attention pooling对image encoder进行图像的全局特征提取。(这里的attention pooling可以理解为一个multi-head attention只不过key和value是image encoder得到的特征而query是预先定义的一个可训练的embedding由于我们只需要提取一个全局特征cls-token【与单模态文本解码器的全局特征进行图像-文本的对比学习】所以只需要定义一个query就好了) 如上图中的代码con_feature attentional_pooling(img_feature, con_query) 单模态文本解码器 (Unimodal Text Decoder) 不参与对图像特征的cross-attention使用 Transformer 模型生成文本的上下文表示 cls-token 特征得到整个句子的全局特征。特别关注 cls-token其特征用于计算与图像对比特征的对比损失 (Contrastive Loss) 。Decoder 是因果自回归的Masked即只能看到序列前面的部分。 图像编码器和单模态文本解码器的两个全局特征就可以实现图像-文本的对比学习。image encoder和unimodal text decoder的两个[CLS]向量作为图片和文本的表示进行对比学习。 多模态文本解码器 (Multimodal Text Decoder) 接收图像的描述特征和文本的输入利用交叉注意力机制生成文本表示。输出文本序列优化目标为描述生成损失 (Captioning Loss)通常是交叉熵损失。 这里也通过了attention pooling对image encoder得到的特征进行提取不过这里query数量定义为256这样attention pooling可以得到256个特征它作为multimodal text decoder的cross-attention的输入用于融合图片和文本信息实现双模态最后做文本生成。 如上图中的代码cap_feature attentional_pooling(img_feature, cap_query)) 为什么采用这种分层设计 高效性 先处理单模态文本输入避免对所有层都施加跨模态交互降低计算复杂度。任务分离 单模态和多模态表示的分离使模型能够同时支持对比学习Contrastive Learning和生成式任务Captioning。 训练目标 CoCaContrastive Captioners解码器的设计在任务分工和结构上非常特别采用了 分层解码器结构以同时支持单模态Unimodal和多模态Multimodal目标。CoCa 的目标函数是单模态和多模态任务的联合优化 L C o C a λ Con ⋅ L Con λ Cap ⋅ L Cap \mathcal{L}_{CoCa} \lambda_{\text{Con}} \cdot \mathcal{L}_{\text{Con}} \lambda_{\text{Cap}} \cdot \mathcal{L}_{\text{Cap}} LCoCa​λCon​⋅LCon​λCap​⋅LCap​ ITC lossContrastive Loss ( L Con ) (\mathcal{L}_{\text{Con}}) (LCon​) 通过图像的对比特征CLS Token和文本的CLS Token计算。通常计算InfoNCE Loss。用于优化图像编码器和单模态文本解码器在多模态嵌入空间中的对齐。单模态表示Unimodal Text Representations通过 cls-token 特征与图像特征进行对比。 λ Con \lambda_{\text{Con}} λCon​ 是对比损失的权重超参数。 LM LossCaptioning Loss ( L Cap ) (\mathcal{L}_{\text{Cap}}) (LCap​) 通过图像的描述特征通过 Attention Pooling 提取和文本输入经过交叉注意力机制后生成文本描述与目标文本进行对比通常计算交叉熵损失。用于优化图像编码器和多模态文本解码器对生成任务文本生成的质量。多模态表示Multimodal Image-Text Representations通过交叉注意力生成文本描述与目标文本计算交叉熵损失。 λ Cap \lambda_{\text{Cap}} λCap​ 是描述生成损失的权重超参数。 InfoNCE Loss参考本系列历史文章中的解释多模态论文笔记——CLIP、BLIP 历史文章 机器学习 机器学习笔记——损失函数、代价函数和KL散度 机器学习笔记——特征工程、正则化、强化学习 机器学习笔记——30种常见机器学习算法简要汇总 机器学习笔记——感知机、多层感知机(MLP)、支持向量机(SVM) 机器学习笔记——KNNK-Nearest NeighborsK 近邻算法 机器学习笔记——朴素贝叶斯算法 机器学习笔记——决策树 机器学习笔记——集成学习、Bagging随机森林、BoostingAdaBoost、GBDT、XGBoost、LightGBM、Stacking 机器学习笔记——Boosting中常用算法GBDT、XGBoost、LightGBM迭代路径 机器学习笔记——聚类算法Kmeans、GMM-使用EM优化 机器学习笔记——降维 深度学习 深度学习笔记——优化算法、激活函数 深度学习——归一化、正则化 深度学习——权重初始化、评估指标、梯度消失和梯度爆炸 深度学习笔记——前向传播与反向传播、神经网络前馈神经网络与反馈神经网络、常见算法概要汇总 深度学习笔记——卷积神经网络CNN 深度学习笔记——循环神经网络RNN、LSTM、GRU、Bi-RNN 深度学习笔记——Transformer 深度学习笔记——3种常见的Transformer位置编码 深度学习笔记——GPT、BERT、T5 深度学习笔记——ViT、ViLT 深度学习笔记——DiTDiffusion Transformer 深度学习笔记——CLIP、BLIP 深度学习笔记——AE、VAE 深度学习笔记——生成对抗网络GAN 深度学习笔记——模型训练工具DeepSpeed、Accelerate 深度学习笔记——模型压缩和优化技术蒸馏、剪枝、量化 深度学习笔记——模型部署 深度学习笔记——VQ-VAE和VQ-VAE-2 多模态论文笔记——dVAEDALL·E的核心部件 多模态论文笔记——LLaVA
http://www.dnsts.com.cn/news/55764.html

相关文章:

  • 免费网站建设空间免费app软件下载网站
  • 安徽省工程建设信息网站陕西住房与城乡建设厅网站
  • 自适应网站制作简创网络网站建设与维护理解
  • 海南省住房建设厅网站首页拼多多关键词排名在哪里看
  • 网站建设 天猫 保证金桂平seo快速优化软件
  • 微信二维码网站建设吉利的网络营销方式
  • 建设网站的工作步骤德州公司做网站
  • 济南微信网站免费建网站在那里好
  • 荥阳高端网站建设九江市建设工程门户网站
  • 做神马网站优化排网站建设公司潍坊
  • 郑州网站建设首选创新河南网站建设制作价格
  • 小百姓这个网站谁做的如何做论坛网站 知乎
  • 深圳地铁建设集团网站网站建设拾金手指下拉
  • 网站怎么进入后台维护wordpress付费查看插件
  • 生态网站模板做网站需要营业执照吗
  • html5集团网站全网通官方网站
  • seo网站内部优化wordpress无法在线安装插件
  • 比价网站怎么做移动互联网开发工程师证书
  • 网站不能添加图片网站优化内链怎么做
  • 做个网站费用多少正能量网站入口不用下载免费
  • 企业网站建设常见问题网站建设责任书
  • 知道网站域名怎么联系saas电商平台
  • 流线型的网站建设网站改版的好处
  • php 开启gzip加速网站wordpress 个人写作
  • 网站建设小程序南宁怎样做同城配送网站
  • 企业门户网站的建设与实现论文wordpress做网站怎么样
  • 想开个小说网站怎么做如何申请微信公众平台号申请
  • 网络公司网站网站开发商城app
  • 班级网站主页怎么做网页设计图片之间空隙
  • 宁波拾谷网站建设网站设计模板免费下载