当前位置: 首页 > news >正文

网站跳出率一般多少WordPress支付宝登录

网站跳出率一般多少,WordPress支付宝登录,个人怎么申请专利,自适应网站搭建欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html#xff09;原创作品 【微软#xff1a;多模态基础模型】#xff08;1#xff09;从专家到通用助手 【微软#xff1a;多模态基础模型】#xff08;2#xff09;视觉理解 【微… 欢迎关注[【youcans的AGI学习笔记】](https://blog.csdn.net/youcans/category_12244543.html原创作品 【微软多模态基础模型】1从专家到通用助手 【微软多模态基础模型】2视觉理解 【微软多模态基础模型】3视觉生成 【微软多模态基础模型】4统一视觉模型 【微软多模态基础模型】5多模态大模型 【微软多模态基础模型】6多模态代理 【微软多模态基础模型】4统一视觉模型 Multimodal Foundation Models: From Specialists to General-Purpose Assistants4. 统一视觉模型4.1 概述4.2 从封闭集合到开放集合模型4.2.1 目标检测与定位4.2.2 图像分割和指向性 4.3 从特定任务模型到统一模型4.3.1 I/O统一4.3.2 功能统一 4.4 从静态模型到可提示模型4.4.1 多模态提示4.4.2 上下文提示学习 4.5 总结与讨论 Multimodal Foundation Models: From Specialists to General-Purpose Assistants 2023 年 6 月微软在 CVPR2023 发表论文「 多模态基础模型从专家到通用助手 」Multimodal Foundation Models: From Specialists to General-Purpose Assistants 。本文全面综述了多模态基础模型的分类和演化这些模型展示了视觉和视觉语言能力并重点关注了从专家向通用助手的过渡。 论文下载地址 https://arxiv.org/abs/2309.10020 https://ar5iv.labs.arxiv.org/html/2309.10020 4. 统一视觉模型 Chapter 4Unified Vision Models 在本章中我们讨论视觉模型的统一。 我们首先概述了视觉模型统一面临的挑战在第4.1节中为实现这一目标所做的最新努力。接下来是关于1 在第4.2节中详细讨论如何将闭集模型转换为开集模型2 在第4.3节中如何统一不同粒度的视觉任务 3 在第4.4节中如何为视觉构建一个更可提示的界面。 4 最后我们在第4.5节总结了本章并讨论了未来的趋势。 4.1 概述 在讨论通用统一视觉系统之前我们重新回顾过去几年中语言模型和自然语言处理NLP的发展。在2018年之前不同的NLP任务是用不同的任务特定模型来解决的比如翻译Bahdanau等2015年、语义解析Berant等2013年、摘要生成Allahyari等2017年等等。随着 Transformer 架构的出现Vaswani等2017年不同NLP任务的语言模型通过一个仅包含解码器的架构统一了起来例如GPT模型Brown等2020年。之后使用下一个词预测任务 训练的 GPT 模型被进一步微调以遵循人类的指令。这导致了 ChatGPT 的出现从根本上改变了我们对AI系统能够做什么的期望。如图1.1 所示的演变过程激发了我们的想象力让我们思考能否以类似的方式构建通用视觉系统。 图4.1在NLP中我们看到了一个明显的趋势即建立一个统一的模型如GPT-3然后是复杂的人机交互系统ChatGPT这激发了整个社区和社会对人工智能的兴趣。计算机视觉CV的一个自然问题是我们是否可以统一所有不同类型的视觉任务如图像分类、对象检测、分割和视觉问答等并同样建立CV模型与人类之间的交互界面。为此最近人们从不同角度进行了许多尝试来解决这个问题包括但不限于a使视觉模型开放b 统一不同粒度以及c使模型更易于使用。 挑战 计算机视觉任务的差异巨大这给构建统一视觉模型带来了巨大挑战 首先视觉任务涉及不同类型的输入从静态图像Rus- sakovsky等2015到序列视频Miech等2019从纯视觉输入如图像除雾He等2010到包括视觉和语言的多模态输入Antol等2015。 其次不同任务需要不同的粒度如图像级任务包括图像分类He等2016和字幕生成Vinyals等2016如区域级任务包括目标检测Girshick2015、定位Plummer2015年又如像素级任务包括图像分割He2017、超分辨率Wang等2020。 因此视觉系统的输出也具有不同的格式如空间信息边缘、框和掩码语义信息类别标签、多标签标记或详细描述。 除了建模方面的挑战之外数据方面也存在挑战。首先不同类型的标签的注释成本差异巨大。如图4.6所示这些标签在粒度和语义丰富度上有不同的水平从整个图像、区域框注释到掩码像素注释。其次通常情况下收集图像数据的成本要比文本数据高得多。因此视觉数据的规模通常比文本语料库小得多。 向统一视觉模型迈进 尽管存在这些挑战计算机视觉社区对开发通用、统一的视觉系统越来越感兴趣尤其是针对视觉理解任务。如图4.1 所示我们将这些努力分为三类 视觉与语言之间的桥梁 通过将封闭集分类扩展到开放世界的识别如CLIPRadford等2021这样的对比语言-图像模型展示了在不同的视觉任务中令人印象深刻的零样本可迁移性。这些模型学习了原始视觉信号和丰富语义之间的映射关系可以支持各种开放词汇的视觉识别任务Zhong等2022Gu等2022Li等2022Ghiasi等2022。 统一的多任务建模 传统的任务特定视觉模型是使用特定任务的数据进行训练的开发一个新任务的模型通常是极其昂贵的。因此开发一个能够在许多视觉任务中表现良好的统一视觉模型是有意义的Yang等2022Lu等2022Zou等2023Chen等2022。 LLM-like可提示接口 LLM可以采用不同语言和上下文提示作为输入并生成用户所需的输出无需微调。通用视觉模型应该具备相同的上下文学习能力以将输出与各种用户意图对齐而无需更改其模型参数。 LLM可以接受不同的语言和上下文提示作为输入并生成用户所需的输出而无需微调。通用视觉模型应该具有相同的上下文学习能力将输出与各种用户意图对齐而无需改变其模型参数Bar等2022Kirillov等2023Zou等2023Wang等2023Balazevic等2023。 在以下部分中我们将详细阐述每个类别中的具体技术与方法。 4.2 从封闭集合到开放集合模型 传统上视觉识别被被形式化为一个分类问题它将原始视觉数据例如图像映射到离散的文本标签。例如图像分类要预测整个图像Deng等2009的一个预定义的封闭集合中的标签而目标检测则要在图像中识别一个封闭集合中定义的对象Lin等2014。然而这种封闭集合模型几乎不能迁移到其它封闭集合或词汇表之外的任务。例如很难将使用 Microsoft COCO 对象集训练的目标检测器应用于检测 Minecraft 对象。 最近CLIPRadford等2021通过引入对比语言-图像预训练方法来解决封闭集模型的局限性以训练一个开放集模型。如图4.2a 所示CLIP不是学习从输入到标签的映射而是使用数亿个图像-文本对来学习一个对齐的视觉-语义空间。从数学上讲传统的视觉任务优化了将标签 y c yc yc 分配给图像的对数似然通常表示为特征向量 u ∈ R P u \in R^P u∈RP 的对数似然 l o g P y c ∣ u l o g e x p w c u ∑ e x p w i u log Pyc|u log \frac{exp^{w_c u}}{\sum exp^{w_i u}} logPyc∣ulog∑expwi​uexpwc​u​ 其中 w ∈ R K × P w \in R^{K \times P} w∈RK×P 是投影矩阵。CLIP方法不是使用预先确定的投影矩阵 w而是使用文本编码器 E n c t e x t Enc_{text} Enctext​ 进行投影 v i E n c t e x t C o n c e p t i v_i Enc_{text}Concept_i vi​Enctext​Concepti​ 在公式4.1中 v 扮演了 w 的角色。文本编码器之所以能够帮助实现开放集识别是因为通过大规模预训练所有文本概念都嵌入到相同的特征空间中特征分布与语义含义一致无需预定义的词汇表。因此对齐的视觉-语义空间可以以零样本的方式轻松转移到广泛的图像识别任务中。请参考第2章对 CLIP 的详细讨论。 图4.2a如CLIPRadford等2021所述用文本描述替换标签并使用文本编码器对其进行编码可以将闭集问题转化为开集问题。图片来源杨等2022b。b 已经提出了许多工作通过用语言空间替换标签空间来转换不同的计算机视觉任务如UniCLYang等2022b、GLIPLi等2022f和OpenSeeDZhang等2023e。 接下来我们将重点讨论区域级别和像素级别的模型。 在CLIP模型Radford等2021发布后已经开发了许多使用大量文本-图像对进行视觉理解的开放集合视觉模型这些模型在不同粒度级别上执行不同水平的视觉理解任务Yang等2022bZhang等2023eLi等2022fGhiasi等2022a这些任务从图像级任务如图像分类Deng等2009、图文检索、图像描述生成Chen等2015区域级定位任务如目标检测和短语定位Plummer等2015到像素级分组任务如图像分割和指向性分割Long等2015Kirillov等2019Hafiz和Bhat2020。 这些模型可以从以下三个维度进行分类模型初始化、设计和训练。 模型初始化开放集模型训练有不同的初始化方法。 使用 CLIP 初始化 许多最近的开放集模型是通过使用预训练模型如CLIP进行初始化训练的因为预训练模型已经提供了一个良好对齐但通常是粗粒度的的视觉-语义特征空间。例如OVR-CNNZareian等2021和RegionCLIPZhong等2022b使用类似 CLIP风格的预训练 ResNetHe等2016作为视觉编码器并使用预训练的 RPNRen等2015来提取区域特征。同样MaskCLIPZhou等2022a和 FreeSegQin等2023b利用 CLIP 模型来提取像素的密集标签。FC-CLIPYu等2023a使用 CLIP 中的冻结卷积网络 ConvNeXtLiu等2022b对不同分辨率的输入图像进行编码。 CLIP增强 与使用CLIP参数初始化模型不同一些方法用通常的方法初始化将模型参数例如将模型参数设置为随机值但使用预训练的CLIP来帮助模型训练。例如ViLDGu等2022通过知识蒸馏将模型与已对齐的CLIP特征增强到模型中。MaskCLIPDing等2022和Mask-Adapted CLIPLiang等2023在模型训练过程中分别依赖预训练的CLIP模型来提供特征和分数分别。 其他 一些方法使用有监督的预训练模型或从头开始学习视觉-语义特征空间。例如GLIPLi等2022和OpenSeeDZhang等2023分别使用了预训练的 BERT模型Devlin等2019和CLIP文本编码器并使用在ImageNet上预训练的视觉骨干进行图像编码。尽管这些分别预训练的图像和文本编码器并没有明确学习图像和语言之间的对齐但事实证明这些模型仍然给出了良好的图像和文本表示并对高效的模型训练起到了关键作用。与此不同GroupViTXu等2022从头开始使用开放集合语义分割任务和全局图像-文本对齐任务进行联合训练。ODISEXu等2023利用预训练的稳定扩散模型SDRombach等2022来提取紧凑的掩码。 模型设计开放集模型可以是多阶段或端到端的。 两阶段模型Two-stage models 这些模型通常遵循基于 DETR 之前的模型设计Ren等2015He等2017将定位和识别解耦。对于目标检测通常会预先训练一个区域候选网络 RPN 来定位感兴趣的对象Zhong等2022Gu等2021以及一个掩码候选网络 MPN 来提取掩码Ghiasi等2022Yao等2022。在给定定位结果的情况下使用预训练的 CLIP 模型来衡量视觉内容和语言概念之间的相似性。两阶段模型的明显优势是它们可以继承开集合的集语义理解能力而无需额外的训练因此可以将模型训练集中在需要高性能的定位网络上。 端到端模型End-to-end models 与两阶段模型不同端到端模型遵循基于 DETR方法Carion等2020Cheng等2022或其他单阶段模型Dai等2021。GLIPLi等2022是其中的代表作之一。GLIP将目标检测形式化为文本对齐并在图像-文本对上进行端到端训练同时具备检测和定位标签。后续的工作通过实现更深入的视觉-语言交互Liu等2023或使用类似 DETR 样式的模型设计Zang等2022Minderer等2022来增强 GLIP。对于分割任务ZegFormerDing等2022和OpenSeeDZhang等2023年都利用了与DETR类似的架构并根据它们的解码器的输出来预测掩码和类别。 模型预训练开放集视觉模型的预训练主要有三种学习方法。 监督学习 通过将标签监督转换为语言监督许多工作直接利用现有的监督注释来训练开放集模型。例如OVR-CNNZareian等2021使用COCO类别训练模型然后评估其在新类别上的性能。同样ViLDGu等人2021分别在COCO和LVIS数据集上训练和评估两个独立的模型。按照类似的途径许多工作在带注释的分割数据集上训练开放集分割模型并评估其对保留数据的泛化能力Ding等2022abZhang等2023eXu等2023a。 半监督学习 人们可以同时使用带注释的数据和未标记或弱标记的数据。例如RegionCLIPZhong等2022b和GLIPLi等2022f都使用教师模型从图像文本对中提取细粒度区域-文本对齐以增强训练数据从而获得更好的开放集检测性能。与此不同OpenSegGhiasi等2022b利用局部叙述数据集Pont Tuset等人2020作为弱标记数据该数据集提供语言短语和图像笔画之间的粗略对应关系。从经验上这种半监督学习方法通常有助于提高模型的泛化能力因为它们可以有效地利用噪声数据中的丰富语义。 弱监督学习 一些工作仅使用弱标注数据进行建模。例如GroupViTXu等2022a使用对比学习法其中模型训练的所有监督来自正负图像-文本对。使用相同的对比学习法SegCLIPLuo等2023b使用收集机制来通过训练图像-文本对来学习合并图像补丁。 下面我们将回顾为区域级和像素级任务开发的最新模型。 图4.3aDetCLIPv2Yao等2023从对象检测和基础数据以及大规模图像文本对中学习细粒度单词区域对齐。b GroundingDINOLiu等2023h将文本条件注入 Transformer 编码器-解码器的不同阶段显著提高了文本-目标定位性能。 4.2.1 目标检测与定位 目标检测是计算机视觉中的基本任务涉及在图像或视频序列中识别和定位感兴趣的目标Viola和Jones2001。多年来已经开发了各种技术和算法以提高目标检测的准确性和效率。过去基于区域的方法如 R-CNNGirshick等2015、Fast R-CNNGirshick2015和 Faster R-CNNRen等2015推动了目标检测的先进技术的发展。为了提高实时性能YOLORedmon等2016提出了一个单一神经网络同时预测目标类别和边界框坐标。一些改进通过在不同尺度上使用多个特征图Liu等2016或引入焦点损失来解决密集目标检测场景中的类别不平衡问题Lin等2017年。 在 TransformerVaswani等2017出现后DETRCarion等2020将Transformer架构应用于目标检测将其视为一个集合预测问题。自DETR以来已经提出了许多方法从各个方面改进基于 Transformer 的目标检测模型如DINOZhang等2022、Group DETRChen等2022和Co-DETRZong等2023。 开放集目标检测模型旨在检测训练数据中提供的词汇表之外的任意概念。文献中已经开发了三种主要的评估设置 零样本目标检测 类似于零样本图像分类Xian等2018零样本目标检测限制用于训练的物体类别并评估模型对新类别的迁移能力。属于这一类的方法主要关注评估模型如何利用预训练的概念嵌入例如word2vecMikolov等2013并学习良好的视觉语义对齐. 严格的开放词汇目标检测 该设置在OV-RCNNZareian等2021中首次引入与零样本目标检测不同的是只要不涵盖任何目标类别训练词汇没有限制。在这种协议下一些代表性作品是ViLDGu等2021、RegionCLIPZhong等2022a和DeticZhou等2022b它们利用大规模语言-图像模型Radford等2021Jia等2021并从图像标签数据中学习。 通用开放词汇目标检测 最近的一些作品如GLIPLi等2022f和OWL-VITMinderer等2022主张采用更灵活的设置来评估目标检测模型的数据集或任务可迁移性。这种设置允许训练集和测试集之间存在词汇重叠例如用Objects365进行训练用COCO进行评估。可以说与上述两种设置相比这是一个更实用的设置因为模型可以使用任何任意训练数据集进行训练并评估它们在开放的真实场景中的检测性能Li等2022b。 物体定位可被视为一种广义开放集目标检测任务Plummer等2015Kazemzadeh等2014Chen等2019Deng等2018。在此任务中模型接受句子和图像作为输入并对与名词短语相关的物体进行定位。 最近M-DETRKamath等2021采用基于Transformer的架构构建了一个端到端的调制探测器以根据原始文本查询检测图像中的对象。与以前在特定数据集上训练的模型不同M-DETR 则是使用来自多模态数据集的 130万对文本和图像进行预训练这些数据集中的文本短语和对应图像对象之间的连接是带标签的。受M-DETR的启发GLIPLi等2022将目标检测视为定位问题并在开放集情境下联合学习使用目标检测和定位数据的模型。在这一研究方向之后DetCLIPv2Yao等2023提出了一种简单的联合学习方法其中多个任务被转化为一个单词-区域对齐任务然后模型在包括目标检测数据、定位数据和图像-文本对的语料库上进行端到端训练。Grounding-DINOLiu等2023是一种最先进的基于定位的目标检测方法其中目标检测器由多个组件组成骨干、颈部和头部并在每个阶段注入语言条件。采用组合文本和图像骨干来提取多尺度特征然后将这些特征传递到颈部。颈部生成的文本和图像特征随后用于驱动语言的查询选择。Grounding-SAM 是通过将 Grounding-DINO与SAMKirillov等2023结合起来。如图4.4所示首先将图像和一组概念输入到 Grounding-DINO中以生成边界框然后使用这些边界框作为SAM的提示来预测每个边界框的掩码。 图4.4Grounding-SAM 由 Grounding-DINO 和 SAM 组成。 4.2.2 图像分割和指向性 图像分割是一个长期存在的具有挑战性的视觉问题主要有三个子任务包括语义分割Long 等2015、实例分割Hafiz and Bhat2020和全景分割Kirillov 等2019。语义分割关心的是图像中每个像素的语义Long 等2015 Chen 等20172022j而实例分割将相同语义的像素分组到对象中。这两个任务的模型从 CNN-based 架构Long 等2015演变为 transformer-based 模型Chen 等2022j从两阶段模型He 等2017和单阶段模型Bolya 等2019 Tian 等2020b发展到最近的基于查询的方法Dong 等2021 Zou 等2022。具备每像素和实例级的理解能力之后自然就可以考虑全景分割Kirillov 等2019 Wang 等2021a Cheng 等2022。最近Mask2FormerCheng 等2022提出了一种用统一的编码器-解码器架构来解决这三个任务。然而所有这些工作都只能处理有限类别的数据。接下来我们将回顾最近关于开放集图像分割和指向性分割的最新工作。 开放词汇分割 最近已经提出了许多方法来将丰富的视觉语义知识从基础模型中转移或提取到特定的分割任务中Radford等2021Jia等2021。突出的例子包括LSegLi 等2022a、OpenSegGhiasi 等2022a和Huynh 等2022。GroupViT Xu 等2022a没有使用现有的模型而是从头开始进行语言-图像预训练使用自下而上的分组ViTDosovitskiy 等2021。DenseCLIPRao 等2022证明了基础模型在微调设置方面比监督模型更优越。最近MaskCLIPDing 等2022b提出利用CLIP同时处理开放词汇全景和语义分割在ADE20KZhou 等2017和PASCALMottaghi 等2014Everingham and Winn2011上取得了令人印象深刻的性能。 最近 FC-CLIP Yu 等2023a没有使用ViT骨干而是利用卷积CLIP骨干即由OpenCLIP训练的ConvNeXtIlharco等人2021作为特征提取器和视觉编码器。基于简化的流水线FC-CLIP显示出合理的效率并在各种开放式分词基准上保持了最新水平。另一项新工作 ODISEXu 等2023a则利用文本到图像的扩散模型而不仅仅是使用CLIP并表明预训练的UNet中的潜在特征可以为开放词汇分割提供有用的紧凑分割信息。 开放词汇分割面临的一个巨大挑战是缺乏带有语义标签的分割数据。迄今为止大多数工作仍然使用 COCO 分割注释。一些近期的工作试图利用物体检测数据作为额外的监督来增强分割模型的训练例如 如图4.5所示的 OpenSeeD Zhang 等2023e和DataSegGu 等2023。除了这些新的建模技术外还开发了新的数据集来缓解这个问题包括多域分割数据集的整理Lambert 等2020、高质量标注的收集Lu 等2023c或扩大到数十亿个掩模Kirillov 等2023。 图4.5:OpenSeeDZhang等2023e利用掩码和框监督来学习通用的开放词汇图像分割模型。 指向性分割任务的设计是开放性的词汇表 模型通常被专门设计为使用各种多模态融合策略从目标数据集中学习Hu 等2016Liu 等2017Margffoy-Tuay 等2018Ye 等2019a Yu 等2016 Wu 等2022a。CLIPSegLüddecke 2022将文本查询扩展为视觉查询并在指向性分割和语义分割上表现出卓越性能。自从视觉 transformer 出现以来LAVTYang 等2022e一开始就增强跨模态交互这在 RefCOCOYu 等2016、RefCOCOYu 等2016和G-RefMao 等2016 Nagaraja 等2016上取得了相当不错的性能。与此不同PolyFormerLiu 等2023e将掩码转换为多边形并要求 transformer 解码器解码一系列多边形坐标。受Pix2SeqChen 等2022c的启发这是在目标检测中的类似方法PolyFormer为指向性分割提供了另一种表示掩码的方法。正如我们之前讨论的也可以将Grounding DINOLiu 等2023h与SAMKirillov 等2023组合用于指向性分割。 统一分割 对于上述的开放词汇和引用分割方法一个人尽皆知的问题是如何将所有分割任务统一在一个框架中。最近X-DecoderZou 等2023a使用通用的编码器-解码器架构来统一所有这些分割任务。指向性分割任务被重新表述为条件全景分割该任务将一些文本短语作为解码器的输入。UNINEXT Yan 等2023是另一项尝试统一所有图像和视频中的实例级分割的工作。与 X-Decoder不同UNINEXT使用早期融合来融合各种提示和视觉特征然后将其馈送到 transformer 编码器-解码器中。 4.3 从特定任务模型到统一模型 上面我们讨论了最近将封闭集模型转换为开放集模型进行检测和分割的努力。然而直到最近大多数视觉任务都是通过专门的模型设计单独处理的这阻碍了不同粒度或领域之间的任务协同作用。这是由于两个原因 视觉任务是碎片化的 如图4.6a所示计算机视觉任务跨越不同的轴包括空间、时间和模态。从空间方面来看它可以是我们之前讨论的图像级、区域级和像素级任务。沿着时间轴我们需要解决的不仅是静态图像还有视频序列。关于模态输入和输出可以是图像、文本或其他类型例如人体姿势、深度图。如此多样化的任务格式严重阻碍了针对所有任务的统一模型的开发。 数据尺度不同 除了复杂的任务场景人类注释的稀缺以及不同任务的不同尺度也使得构建统一的模型具有挑战性。在图4.6b中我们可以看到一个清晰的数据规模金字塔其中不同层次的人类注释具有不同的语义。更具体地说像LAION Schuhmann等2021这样的图像文本数据集包含多达2B个样本而像Objects365Shao等2019这样的对象检测数据集共有170万张图像。由于标注掩码的成本很高在分割数据集中观察到更显著的差距。 图4.6aCV任务格局CV任务可以跨越不同的轴包括模态、空间和时间这给将所有任务统一到一个模型中带来了重大挑战。。b 数据规模金字塔特别是不同任务中的数据集通常包含不同类型的监督。像ImageNetDeng等2009和LAION Schuhmann等2021这样的图像级数据集具有丰富的语义覆盖但粒度较粗的注释而像COCO全景分割Chen等2015这样的像素级数据集提供了有限概念细粒度的注释。 尽管存在上述挑战但我们现在看到由于Transformer 的通用性Vaswani 等2017人们对构建统一通用模型的兴趣日益增长这种模型可以从各种视觉和视觉-语言任务中学习并应用于这些任务。这些尝试可以归为两大类 I/O统一 随着统一大型语言模型LLM的发展许多近期的研究将许多视觉任务重新表述为序列到序列sequence-to-sequence问题Wang等2022bYang等2022cChen等2022dLu等2022a。他们通常使用一个标记器tokenizer将各种任务中使用的不同模态的原始输入和输出I/O标记为连贯的序列视觉或文本标记然后使用统一的序列到序列模型。 功能统一 除了I/O统一之外还可以通过功能统一来构建一个通用模型。扩展多任务学习方法Lu等2020Gupta等2022aHu和Singh2021a许多近期的工作使用一致的编码器-解码器架构Yu等2022aZhang等2022bZou等2023a。这一类工作通常不需要特定任务或特定模态的标记器但需要复杂的模型设计来适应各种任务。 图4.7说明了两种类别统一方法的区别。对于I/O统一I/O统一模块始终生成一系列令牌tokens并使用单独的解码器对不同任务的最终输出进行解码。对于功能统一功能统一模块为不同任务生成不同类型的结果例如语义输出和空间输出。然后将这些不同类型的结果组合以产生最终特定任务的结果。这两种统一方法都努力利用不同粒度级别的任务之间的协同作用。例如粗粒度数据有助于为细粒度任务所需的丰富语义理解做出贡献而细粒度数据则可以增强粗粒度任务的基础能力。在以下部分中我们将回顾这两类方法中的一些最新工作。 图4.7I/O统一和功能统一的并排比较。I/O统一旨在利用解码器对同构令牌序列进行解码然后由特定任务的解码器进行解码。相比之下功能统一预测异构输出然后使用不同的路由器或标头为各种任务生成最终输出。 4.3.1 I/O统一 这些工作主要受到了 LLMs 的启发它们将许多NLP任务作为顺序建模来统一。在视觉领域通过 I/O 统一构建通用模型的方法可以根据感兴趣的任务和输出格式分为两类。 稀疏和离散的输出 对于产生稀疏或离散标记输出的视觉任务我们可以很容易地利用语言标记器如字节对编码BPE(Sennrich 等, 2016)进行I/O统一。相反像边界框、掩模或人体骨架这样的空间输出可以被形式化为数字坐标的序列然后被标记为离散标记Cho 等2021Yang 等2022cLiu 等2023e。因此解码的输出标记与有机文本标记和数字文本标记交织在一起以支持各种任务。。不失一般性解码过程被构建为自回归生成并使用如下目标函数训练模型 L ( θ ) ∑ t 1 T l o g p ( s t ∣ s t , v ; θ ) L(\theta) \sum^{T}_{t1} log p(s_t|st,v;\theta) L(θ)t1∑T​logp(st​∣st,v;θ) 在上述公式中 { S } t T \{S\}^T_t {S}tT​ 是长度为 T 的离散标记序列 v 是视觉特征。接下来我们将回顾一些代表性的工作。 UniTab Yang 等2022c采用序列解码的方式统一了文本和框的输出。如图4.8a 所示框的坐标以包裹的数字形式表示然后使用特殊标记表示位置信息。通过这种方式该模型可以统一处理各种需要文本和位置输出的任务包括图像字幕生成Chen 等2015、视觉对齐Plummer 等2015、目标定位和视觉问答Antol 等2015。该模型的训练分为三个阶段预训练、多任务微调和特定任务微调。 Pix2SeqV2Chen 等2022d与UniTab略有不同它将两种不同的视觉任务统一起来指向性分割和关键点检测。遵循Pix2SeqChen 等2022c的方法Pix2SeqV2 将图像中的目标表示为 [yminxminymaxxmaxtext] 。然后它为每个任务引入了唯一的任务提示其中包含任务类型信息或任务类型和特定位置信息的组合。对于掩码解码掩码轮廓被转换为多边形然后从多边形中提取出其坐标Castrejon 等2017。对于指向性分割指向性 PolyformerLiu 等2023e也采用了类似的策略。 图4.8:aUniTab 统一 字幕生成、视觉定位、图像字幕、VQA和对象定位。b Pix2Seqv2被提出用于统一对象检测、指向性分割、关键点检测和图像字幕。 基于 LLM 增强 最近的工作还探索了基于LLM构建通用解码接口LLM在大量文本数据和人类指令上进行了预训练。Kosmos-2Peng等2023b利用 Kosmos-1Huang等2023b的预训练LLM通过收集由9100万张图像组成的网络规模的图像-文本对数据集GRIT增强了基于真实场景的多模态数据。VisionLLMWang等2023h在图像标记器上附加了一个更大的LLM例如LLaMaTouvron等2023如图 4.9 所示。所得到的模型在目标检测、分割等方面表现出很强的视觉语言推理能力和良好的定位能力。其他一些将LLM与定位相结合的工作有DetGPTPi等2023和GPT4ROIZhang等2023k。为了进一步使模型具备分割能力BubaGPT赵等2023c和LISALai等2023都使用额外的指向性分割模型分别通过将文本或嵌入作为输入来分割图像。PaLI-XChen等2023g是迄今为止最大的统一模型可以处理多语言视觉和视觉-语言任务。 图4.9VisionLLMWang等2023h被提出以顺序解码的方式将视觉系统与LLM连接起来。 稠密和连续输出 还有一些任务需要密集和连续的输出例如图像分割He等2017、深度估计Mertan等2022、图像修复和编辑Elharrouss等2020Brooks等2023。除了分割掩码可以用多边形近似以外Liu等2023eChen等2022d大多数稠密和连续的输出不容易转换成离散标记因为它们存在于高维空间中。因此我们必须求助于针对图像的标记工具。类似于语言标记器图像标记器对原始图像进行编码并提取跨越视觉特征空间的离散标记。最具代表性的工作是 VQ-VAEOord等2017Razavi等2019。如图4.10a 所示VQ-VAE学习一个编码器 z e ze ze 和一个解码器 z q z_q zq​ 以及由 K 个嵌入组成的离散码本 e { e 1 , . . . e K } e \{e_1,...e_K\} e{e1​,...eK​}。给定输入 x后验分类概率 q ( z ∣ x ) q(z|x) q(z∣x) 被定义为 在这里解码器 z q z_q zq​ 以 x或表示为 e k e_k ek​作为输入来预测类别标签。 作为 VQ-VAE 的变体VQ-GAN 使用鉴别器和感知损失Larsen等2016Lamb等2016来在输出质量和模型效率之间保持良好的平衡通过高压缩率。如图4.10b所示鉴别器在图像的图块级别上应用以规范高分辨率图像的解码。 图4.10:VQ-VAEOord等2017和VQ-GANEsser等2021的说明。 下面我们将讨论一些最近的工作这些工作试图统一涉及稠密输出的不同视觉和多模态任务。 UViMKolesnikov等2022是首批采用稠密解码过程来统一各种核心视觉任务的工作之一这些任务包括全景分割、深度估计和着色。学习过程包括两个阶段1学习基本的编码器-解码器 f f f 和受限的 Oracle Ω以预测给定输入图像的输出其中 f 将原始图像作为输入Ω 将所需输出作为输入来解码 Oracle 代码2不使用所需的输出作为Oracle Ω的输入而是学习一个语言模型为输入的原始图像生成Oracle代码。值得注意的是这里使用的编码器-解码器模型是使用VQ-VAE目标进行训练的。作为统一视觉任务的第一步UViM在三个视觉任务上展现了令人期待的结果。 Unified-IOLu等2022a是另一项代表性作品。与UViM相比它扩展到了更多的视觉任务和数据集。与UViM的训练过程不同Unified-IO首先为不同的任务训练不同的VQ-VAE模型如图4.11左图所示。获得所有VQ-VAE编码器-解码器后将90个数据集组合起来以端到端地训练另一个transformer编码器-解码器如图4.11右图所示。与之前的工作类似它还使用语言解码器获得有机和数字文本以生成坐标输出。在第二阶段预训练之后尽管在常见任务上的性能仍然落后于最强的模型该模型在GRIT基准Gupta等2022c上达到了最先进水平并表现出引人注目的组合性。作为后续工作Ning等2023提出了一种软标记策略来提高下一个标记的解码准确性。此外还提出了一种掩码建模策略来学习稳健的表示。在实例分割和深度估计方面的评估该模型在NYUv2Silberman等2012上达到了最先进的性能在分割上表现出有竞争力的性能。最近的一项工作将图像修复作为统一不同像素级视觉任务的一般任务Bar等2022。给定由 VQ-GAN产生的目标离散标记该方法利用掩码自动编码器来解码缺失的图像区域使用任务输入-输出示例作为提示。PainterWang等2023i扩展了这一流程以促进更多的视觉任务并在各种标准基准测试中获得了具有竞争力的性能。 图4.11Unified-IOLu等2022a通过首先为每个任务预训练VQ-VAE然后为任务联合训练编码器-解码器来统一不同的视觉任务。 基于扩散模型增强Diffusion-augmented 与上述学习自己的解码模型的作品不同最近的一些工作利用现成的稳定扩散模型来构建多面手视觉模型。例如Prompt DiffusionWang等2023m使用 稳定扩散模型 SD 和 ControlNetZhang和Agrawala2023初始化一个模型并同时在包括分割、深度估计等在内的六个不同的视觉-语言任务上进行了上下文图像到图像模型的联合训练。InstructDiffusionGeng等2023也使用扩散模型但明确地将特定任务的指令引入扩散过程中。此外它使用特定任务的训练和人类对齐训练以实现视觉任务的通用接口。 4.3.2 功能统一 与I/O统一不同功能统一试图根据任务特征来统一不同的任务因为它们既不是完全隔离的也不是完全一致的。从高层次来看视觉任务产生三种类型的输出1位置输出2语义输出3像素级输出。例如目标检测和短语定位都需要在图像中定位目标而通用分割和指向性分割都产生掩码。另一方面许多任务需要语义或文本输出来表示概念名称或文本描述。 多任务学习 早期的一些工作探索了多任务学习方法来统一不同的视觉或视觉-语言任务。 视觉模型 一些早期工作探索了使用 CNN 在不同层次上学习不同的视觉任务。例如Cross-stitch NetworksMisra等2016开发了一种策略从CNN的顶部开始分割不同数量的层以适应不同的视觉任务。结果表明表现最佳的多任务架构取决于感兴趣的的任务很难推广到新任务。UberNetKokkinos2017更进一步使用单一的通用CNN架构精心设计了一种路由机制来节省内存和计算成本如图4.12a所示。这两项工作都需要对CNN 架构进行一些调整以便能够适应不同级别的任务和损失类型。但遗憾的是它们未能建立跨任务的协同效应来提高模型性能。TaskonomyZamir等2018专门研究了视觉任务之间的关系。它首先为每个单独的任务训练特定任务的模型然后在潜在空间中执行跨任务的转移建模。然后在潜在空间中计算任务的亲缘关系为我们提供任务图谱。结果表明视觉任务在不同的组中具有不同的亲缘关系如图4.12b所示。例如表面法线估计与重塑和点匹配密切相关。曲率提取与图像分割任务有关。这项研究为多任务视觉建模提供了深刻的理解Xu等2018Crawshaw2020。 图4.12aUberNetKokkinos2017可以使用统一且预算可控的CNN架构应用于7个视觉任务。b TaskonomyZamir等2018通过利用多任务转移模型进一步研究了视觉任务之间的关系。 多模态模型 Transformers的出现极大地促进了多任务多模式学习的发展。其中12in1Lu等人2020是基于BERT的单一架构结合12个视觉-语言任务的开创性作品之一。它为每个任务使用特定任务的头并使用一个共享的主干 ViLBERTLu等人2019。结果表明多任务学习可以在显著减少模型参数的同时实现对单任务学习的实质性改进。后来UniTHu和Singh2021b采用了编码器-解码器架构扩展到仅限视觉的任务如目标检测。此外它允许在任务池上进行端到端的训练而无需依赖预先训练的检测器。与12in1类似它也为每项任务使用一个特定于任务的头部这是由于经验表明共享相同的头通常会损害性能。同样E2E-VLPXu等人2021提出了一种用于定位任务和文本生成的端到端的管道。UniT和E2E-VLP都证明了DETR编码器-解码器架构的通用性Carion等2020。遵循同样的精神GPVGupta等2022b为不同的视觉和视觉语言任务提出了一种端到端的与任务无关的架构。它使用 DETR 来提取框和区域特征然后利用交叉注意力模块进行融合然后使用视觉解码器和语言解码器对不同的输出进行解码。 上述视觉和多模态模型通过采用针对不同任务而设计的不同模块或头来统一不同的任务很难实现跨任务的协同作用。在以下部分我们讨论了最近的模型统一研究这些研究旨在充分利用各种视觉和多模态任务之间的协同作用。 统一学习 随着我们之前讨论的开放集模型和TransformerVaswani等2017的发展跨任务之间的界限逐渐模糊化。现在可以将来自不同模态的输入绑定在一起以学习一个共享的语义空间。近年来一些工作Zhang等2022bZou等2023aLi等2023g已经提出了通过一个模型统一处理所有视觉和视觉-语言任务。在预训练之后单一模型可以以零样本方式处理所有任务并且可以通过特定任务的微调进一步改进性能。需要注意的是这种上下文中的统一学习与以前的大规模预训练工作不同。就像GPT在预训练后作为通用语言接口一样统一的视觉模型不仅是一个表示学习引擎还是一个支持尽可能多任务的接口可以以零样本方式处理这些任务。下面我们回顾一些代表性的工作。 GLIPv2Zhang等2022b是通过扩展GLIPLi等2022f而提出的以支持广泛的视觉和视觉-语言任务包括基于图像的描述生成、视觉问答等。GLIPv2通过三个不同的预训练任务无缝地融合了定位预训练和视觉-语言预训练VLP1短语定位用于视觉-语言适应检测任务2区域-单词对比学习引入了一个新颖的区域-单词级的对比学习任务3掩码语言建模。这个预训练模型可以以零样本方式应用于不同的任务并在各个任务中获得较好的性能。与之前的工作不同例如GPVGupta等2022b它以一种一致的方式合并了定位模块和视觉-语言匹配模块使从融合数据中训练模型更加高效和有效。 X-DecoderZou等2023a采用了编码器-解码器架构的通用设计。给定一个输入图像它首先使用图像编码器来提取多个尺度的特征。之后使用文本编码器将文本查询编码成嵌入序列。视觉特征、文本查询和非语义或潜在查询被送入解码器来预测输出。X-Decoder 提出了三个关键设计来增强对各种视觉和视觉-语言任务的泛化能力1定义了两种类型的查询和输出。具体来说解码器的查询分为潜在查询和文本查询分别执行通用视觉和视觉-语言任务。同样输出也分为像素级掩码和语义嵌入2使用单个文本编码器来对来自所有任务的文本语料进行编码。使用通用的文本编码器对指示短语、文本描述和图像字幕进行编码分别用于指向性分割、图像-文本检索和图像字幕任务3完全解耦图像和文本编码器并使用所有的输出用作查询。因此它可以从图像内监督和图像间监督中学习更强的像素级表示支持不同粒度的任务。如图4.13所示预训练模型可以通过采取不同的路由来支持不同的任务同时共享相同的参数。 Uni-Perceiver-v2Li等2023g是另一个通用模型它统一了视觉和视觉-语言任务。与X-Decoder类似该模型利用视觉编码器、文本编码器和通用解码器。不同的是它在视觉主干上引入了一个区域候选网络 RPN明确地预测框和掩码然后将它们编码为“查询”供通用解码器使用。为了在具有定位和没有定位的数据集上进行联合训练它引入了一个统一的最大似然估计策略适用于具有定位和没有定位的任务。 图4.13以功能方式统一不同视觉和视觉语言任务的多面手模型X-DecoderZou等2023a。它使用具有相同参数集但具有不同路由机制的单个解码器来处理不同的任务。 4.4 从静态模型到可提示模型 大型语言模型LLMs如ChatGPTOpenAI2023b的成功表明了现代AI模型在与人类互动中的重要性并为通用人工智能 AGIBubeck等2023提供了希望。与人类互动需要一个用户友好的界面该界面可以接受尽可能多种类型的人类输入并生成人类可以轻松理解响应。在NLP中这种通用交互界面已经出现并发展了一段时间从早期的 GPTBrown等2020和T5Raffel等2020到更先进的如提示promptingShin等2020Zhao等2021Li和Liang2021和思维链chain-of-thoughtWei等2022aKojima等2022Schick等2023等技术。然而大多数视觉模型仍然是静态的它们对各种提示的灵活性不如LLMs。最近一些研究提出了增强静态视觉模型的能力以支持1多模态提示2上下文提示。 4.4.1 多模态提示 视觉与自然语言有本质的不同。为了实现人类和人工智能之间的流畅互动一个模型需要不仅有语言提示还需要其他类型的提示以补充缺失的信息或消除语言中的歧义。最近许多研究探讨了如何将语言提示与其他类型的提示相结合或增强例如空间提示Kirillov等2023视觉提示Zou等2023b和其他模态Girdhar等2023Liu等2023f。以下我们回顾一些代表性的研究。 空间提示 视觉根植于物理世界因此它不仅具有语义性还具有空间性质。空间提示可以被视为是一种通过位置信息输入来调制视觉模型的方式这些位置信息可以是点、框或任意笔画等。在计算机用户界面设计例如鼠标和移动设备例如触摸屏中这类提示在UI设计中广泛使用。在计算机视觉中交互式分割Mortensen1998McGuinness2010Chen等2021c2022i自然需要这种能力以便模型可以接收来自用户的多个点击并逐步细化分割掩码。然而这些工作大多数仍然是针对特定任务设计的缺乏足够的灵活性来支持不同类型的空间提示。 SAMKirillov等2023是提出便捷的空间提示界面并学习图像分割基础模型的先驱工作之一。如图4.14 所示该模型可以以点或框作为提示以任意粒度对图像进行分割。该模型可以根据人类的用户指令进行分割使得其能够轻松地构建更多的模型和应用Zhang等2023c。举几个例子许多作品Ma和Wang2023Roy等2023从SAM开始为医学领域训练了一个可提示的分割模型。医学图像的文本注释通常很有限且难以解释空间提示特别有益。其他行业领域也有类似的情况Tang等2023a。为了进一步改进“点”提示SAMAugDai等2023a提出使用最大熵准则和显著性图来细化“点”这有助于确定模型应该关注的最具信息量的位置。 图4.14:SAMKirillov等2023提出了一种可提示的分割模型除了文本提示外该模型还可以接受不同的空间提示。它进一步开发了一个数据注释引擎来扩展掩码注释数据。 图4.15:SEEMZou等2023b可以将不同类型的提示作为各种图像分割任务的输入。 视觉提示 在许多情况下关于物体的文本描述不一定能够清楚地传达信息。例如对于一个无法识别或难以描述的物体人们可能无法清晰地表达有关该物体的信息。在这种情况下展示一个或几个示例会更具信息性和直观性。基于这个想法许多研究探讨了基于示例的视觉建模例如图像到图像检索Yoon等2021Datta等2008Zhang等2018、图像协同分割Joulin等2010Jerripothula等2016和视觉对象跟踪Yilmaz等2006Luo等2021Wu等2013。最近这种策略已经被制定为视觉提示其中不同类型的视觉输入通常被编码为某种统一格式然后输入到Transformer架构中就像在LLM中那样。 SEEMZou等2023b是使视觉模型进行图像分割的视觉提示的代表性作品之一。如图4.15所示SEEM与上述的SAM不同它可以通过在目标图像或另一参考图像上绘制点、框和笔画等方式来接受视觉提示。它开发了一个名为“视觉采样器”的新模块可以根据用户指定的位置从图像中提取视觉特征。基于视觉采样器该模型甚至可以接受另一参考图像作为输入而无需像那样进行训练。因此它不仅在各种图像分割任务中表现出令人印象的性能而且在零样本方式下进行视频对象分割时也表现出令人印象的性能。 PerSAMZhang等2023h在SAM的基础上开发了一个个性化的分割模型并以一个镜头作为输入。它学习一个特定的模型该模型以源图像加上掩码作为输入然后预测目标图像的掩码。为了提取视觉提示采用了掩码池化并将其作为解码器的输入标记。它还提出了一种基于特征匹配提取正负先验的方法以促进具有全面线索的预训练SAM模型。与LLMs中的大多数提示学习方法一样PerSAM的一个明显特点是它可以很容易地获得一些现成的模型如SAM。SAM-PTRajic等2023进一步将这种策略应用于视频对象分割。受到SAM中空间提示的启发它利用点跟踪系统Harley等2022来跟踪不同的点包括正点和负点然后要求SAM根据给定的点对图像进行分割。它表现出强大的点跟踪性能和分割性能。 其他 其他一些研究结合了多种视觉提示类型。例如PainterWang等2023i将不同的视觉任务例如深度估计、图像分割都重新构建为提示并学习一个上下文学习方式的解码器。提示是原始图像和相应的密集注释例如深度或分割图的组合。相比之下PrismerLiu等2023f利用许多现成的视觉模型从原始图像中提取不同信息然后将信息馈送到视觉语言模型。为了促进不同模态之间的相互作用ImageBindGirdhar等2023学习了图像/视频、语言、音频和深度之间的通用对齐方式。一旦学习了嵌入空间就可以通过简单地进行求和来组合不同类型的提示。 4.4.2 上下文提示学习 在许多大型语言模型LLM中如GPT-3Radford等2019已经观察到了上下文学习的能力这使得模型可以通过提示进行配置而无需更新任何模型参数。相比之下到目前为止视觉模型的上下文学习能力仍然较少被研究。FlamingoAlayrac等2022是展示多模态输入上下文语言生成的先驱工作之一它通过从交错的图像文本对数据中学习而获得。同样 Kosmos-1Huang等2023b将视觉输入视为外语因此大型语言模型的上下文学习能力可以自然地转化为多模态输入。然而这两种方法都以多模态数据为输入但仅生成文本输出。正如我们之前讨论的视觉任务需要不同类型的输出而不仅仅是文本。如何赋予视觉系统上下文学习能力仍然是一个悬而未决的问题。下面我们回顾了近期为实现这一目标所做的尝试。 Bar 等2022提出了通过修复图像中缺失区域的方法进行视觉提示以教导模型预测密集输出例如边缘、掩码、深度等如图4.16 所示。给定输入图像 x ∈ R H × W × 3 x∈R^{H×W×3} x∈RH×W×3和二进制掩码 m ∈ { 0 , 1 } H × W m∈\{0,1\}^{H×W} m∈{0,1}H×W图像修复模型旨在预测缺失区域 y f ( X , m ) yf(X,m) yf(X,m)。作者利用预训练的VQ-GAN将原始图像编码为离散标记并要求另一个ViT编码器预测掩码区域。为确保模型理解图像中的视觉“上下文”作者收集了一个名为“计算机视觉图形数据集”的新数据集该数据集包含Arxiv论文的88,000张图像。在预训练后该模型用于预测右下角的图像内容。 图4.16Bar等2022提出的通过视觉修复进行视觉提示。 PainterWang等2023i将视觉上下文学习的类似想法扩展到了更多元化的数据集和基准测试中。与Bar等2022不同Painter 预测输出位于连续像素空间而不是离散标记。对于不同的任务作者们定义了将输出空间转换为图像空间的规则。例如对于分割任务它使用不同的颜色表示图像中不同的个体实例。在统一输入和输出格式后作者们使用标准 ViT 作为编码器并使用掩码图像建模He等2022a。后续工作 SegGPTWang等2023j在Painter的基础上专门针对图像分割任务而设计。预训练模型可以轻松扩展到基于示例的图像分割任务中。 图4.17:SegGPTWang等2023j提出对图像分割进行上下文学习。 HummingbirdBalazˇević等2023采用了不同的方法进行上下文视觉学习。与使用掩码建模不同作者提出利用目标图像和源图像之间的注意力来聚合信息。如图4.18所示该模型采用多个输入图像第一行和相应的语义标签图第二行。给定查询图像它首先找到提示图像中与查询点最近的特征位置然后将相同的匹配项投影到语义标签地图上以便为目标查询聚合标签。这种策略类似于早期基于K-最近邻的分类模型但不同之处在于它适用于密集预测任务。 图4.18蜂鸟Balažević等2023被提出用于通过最近邻检索进行上下文视觉场景理解。 讨论 上下文学习无疑是一个吸引人的特性。一方面有许多作品试图将视觉与大型语言模型LLM结合以继承上下文学习的能力如 FlamingoAlayrac等2022和 Kosmos-1Huang等2023b。另一方面研究人员采用纯粹的基于视觉的上下文学习来处理视觉特定任务如图像分割、深度估计等。迄今为止还没有一个单一的模型能够以上下文学习的方式同时接受多种模态输入和预测不同类型的输出这可能会成为这个领域一个充满希望的未来发展方向。 4.5 总结与讨论 最后图4.19 展示了本章所涵盖的作品的直观总结。视觉领域中有一个明显的趋势是构建开放世界、统一和交互式的视觉模型。然而视觉与语言之间仍存在一些内在差异。首先视觉不同于语言它以原始信号捕捉物理世界。我们需要开发一些复杂的标记化方法将原始数据压缩成紧凑的“标记”。在语言领域这可以通过使用一些成熟的启发式标记器Sennrich等2016轻松完成。其次与语言不同视觉数据本身没有标记因此难以传递信息或知识。它总是需要人工以语义或空间的方式对视觉内容进行注释。第三语言数据是同质的而视觉数据和任务是异质的。最后但同样重要的是存储视觉数据的成本比语言数据高得多。例如GPT-3消耗了45 TB的训练数据而包含130万张图像的ImageNet数据集的成本超过了数百GB。。当涉及到像Howto100MMiech等2019这样的视频数据时存储成本已经超过了GPT-3的训练语料库。所有这些差异都提出了一些视觉领域需要解决的尚未解决的问题详述如下。 图4.19本章涵盖的主题摘要。人们已经投入了大量努力从不同方面统一视觉模型以实现更智能的视觉系统。 开放的真实场景中的计算机视觉 由于其异构性质我们用于训练模型当前的视觉数据几乎无法涵盖物理世界的全貌。尽管我们在构建开放集视觉模型方面做出了努力但在应对新颖或长尾场景方面仍面临重大挑战。 视觉中的规模定律 正如Kaplan等2020、Hoffmann等2022所讨论的随着模型大小、数据规模和计算量的增加大型语言模型的性能稳步提高。随着规模的增加LLM 中进一步观察到一些有趣的涌现现象。相比之下目前尚不清楚规模视觉模型的正确途径是什么更不用说这些模型中涌现的属性了。 以视觉为中心或以语言为中心的模型 目前视觉和语言之间的界限逐渐被消除。然而由于视觉和语言之间的内在差异目前尚不清楚我们是否应该进一步扩大视觉模型并整合语言模型或者适度视觉模型和LLM的结合是否足以解决大多数如果不是全部问题。 综上所述我们离能够像人类一样感知世界的高度智能化的视觉系统还有很长的路要走。我们希望本章的文献综述能够提供现有努力的全面概述并激发对下一代视觉模型的追求。 【本节完待续】 参考资料 Chuanyuan LiZhe GanZhengyuan Yang等Multimodal Foundation Models: From Specialists to General-Purpose AssistantsMicrosoft Corporationarxiv.org/html/2309.10020 v1 版权声明 本文是对论文 “Multimodal Foundation Models: From Specialists to General-Purpose Assistants” 的翻译仅供学习使用。 youcansxidian 作品转载必须标注原文链接 【微软多模态基础模型】4统一视觉模型 Copyright 2024 youcansXIDIAN Crated2024-11
http://www.dnsts.com.cn/news/247703.html

相关文章:

  • linux建设网站资料共享的网站开发
  • 企业网络营销企业网站建设章节习题网站开发外包公司合同范本
  • 网站后台管理系统ie8用不了互联网项目有哪些可做
  • 商务网站建设与管理新手怎么开网店
  • 网页设计模板素材网站大全哪里可以注册公司
  • 手机网站怎么做SEO优化宣传文案模板
  • 网站做竞价搜索引擎入口yandex
  • 网站正常打开速度慢大淘客做的网站打不开
  • 秦皇岛陵县网站建设小程序模板
  • 网站规划有哪些内容富通建设有限公司网站
  • 如何找企业联系做网站产品工业设计网站
  • 做网站推广的工作内容网站建设如何空间绑定域名
  • 百合网网站建设与策划怎么样做自己的网站
  • 正规百度推广沈阳seo合作
  • 兰州电商平台网站建设急招室内设计师
  • 看p站用什么浏览器国外做旅游攻略的网站
  • 合肥网站推广宣传片拍摄脚本
  • discuz做商城网站陶瓷企业 瓷砖地板公司网站建设
  • 建设网站基本流程口碑营销的缺点
  • 怎么用织梦做自己的网站心力建网站
  • 金山网站安全检测线上营销
  • 帮网站做代理网站建设中 什么意思
  • 网站站内优化怎么做前端开发培训机构哪个好
  • 刷单网站搭建wordpress免费强大主题
  • 传奇网站模板怎么做的吗如何查看网站做没做竞价
  • 深圳模板网站可以免费做试卷题目的网站
  • 江西航达建设集团网站济宁 创意大厦 网站建设
  • 搭建网站公司排行榜什么是网络营销渠道
  • 建宣传网站石家庄搜索引擎优化
  • 阿里云自助建站模板国际网站建设的目的