当前位置: 首页 > news >正文

wordpress熊掌号seo的英文全称是什么

wordpress熊掌号,seo的英文全称是什么,耒阳在那做网站,旅游电子商务与网站建设1.前言 大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作#xff0c;例如 LLaVA、MiniGPT-4 和 InstructBLIP#xff0c;展示了卓越的多模态理解能力。为了将 LLM 集成到多模态领域#xff0c;这些研究探索了将预训练的模态特定编码…1.前言 大型语言模型 (LLM) 的重大进步激发了多模态大型语言模型 (MLLM) 的发展。早期的 MLLM 工作例如 LLaVA、MiniGPT-4 和 InstructBLIP展示了卓越的多模态理解能力。为了将 LLM 集成到多模态领域这些研究探索了将预训练的模态特定编码器例如 CLIP的特征投射到 LLM 的输入空间中从而在 Transformer 主干中实现多模态理解和推理。尽管 MLLM 有各种设计选择例如视觉编码器、特征对齐适配器和数据集但大多数这些模型的训练都遵循自回归生成范式该范式已被证明对 LLM 中的文本生成有效。尽管这些模型具有强大的多模态理解能力但它们主要关注视觉感知缺乏生成文本以外的多模态输出的能力。 Transformer 模型在自然语言处理中的自回归建模中表现出色。受此进展的启发先前的研究直接应用相同的自回归建模来学习图像像素对图像和视频生成的依赖性。例如VideoPoet 采用仅解码器的 Transformer 架构从多模态输入合成高质量视频。最近LlamaGen 表明像 Llama 这样的大型语言模型架构可以自回归建模图像标记在类条件图像生成中取得不错的性能。 在本文中我们将讨论 Show-O这是一种集成了多模态理解和生成的统一转换器。与完全自回归模型不同Show-O 统一了自回归和离散扩散模型以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务包括视觉问答、文本到图像生成、文本引导的修复外推和混合模态生成。在各种基准测试中Show-O 表现出与具有同等或更多参数的现有单个模型相当或更优的性能凸显了其作为下一代基础模型的潜力。 在这个框架中模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下其他模型如 D3PM、Mask-predict、ARDM 和 MaskGIT使用离散损坏过程作为高斯扩散的替代。具体来说使用图像标记器将图像表示为一系列离散标记每个标记都与一个分类标签相关联。通过随机采样过程将标记分布转换为均匀分布。在训练期间这些标记中的一部分被随机屏蔽并且模型被训练来预测被屏蔽标记的原始值。在这项工作中Show-O 采用离散扩散建模进行视觉生成。 2. SHOW-O统一多模式理解和生成 过去几年多模态智能的两个关键支柱——理解和生成——取得了重大进展。对于多模态理解 多模态大型语言模型 (MLLM) 等技术在视觉问答 (VQA) 等视觉语言任务中表现出了卓越的能力。对于视觉生成去噪扩散概率模型 (DDPM) 彻底改变了传统的生成范式在文本到图像/视频生成中实现了前所未有的性能。 鉴于各个领域取得的成就探索将它们连接起来的潜力是自然而然的。最近的研究试图将来自这两个不同领域的专家模型组合起来形成一个可以同时处理多模态理解和生成的统一系统。然而现有的尝试通常涉及用于理解和生成的单独模型。例如NExT-GPT 使用基本语言模型进行多模态理解但需要额外的预训练扩散模型进行图像生成。这就提出了一个问题一个单一的 Transformer 可以同时处理多模态理解和生成吗 最近Chameleon 证明了这是可能的。具体来说Chameleon 通过自回归建模实现了不同模态的融合从而生成文本和图像标记。虽然对文本标记进行自回归建模是有意义的但尚不清楚以相同方式对图像块或像素进行建模是否是最佳选择。自回归预测图像的一个关键瓶颈是需要大量的采样步骤尤其是在处理高分辨率图像时。与自回归模型相比连续扩散模型在视觉生成方面表现出色。 这促使我们探索单个 Transformer 是否可以集成自回归和扩散建模。Show-O 设想了一种新范式其中文本表示为离散标记并进行自回归建模而连续图像像素则使用去噪扩散进行建模。然而由于离散文本标记和连续图像表示之间的差异将这两种不同的技术集成到单个网络中并非易事。此外扩散模型通常依赖于两个不同的模型文本编码器和去噪网络。 为了解决这个问题Show-O 引入了一种新颖的统一模型该模型能够使用混合自回归和扩散建模来处理多模态理解和生成任务。Show-O 建立在预先训练的 LLM 之上并利用其自回归建模功能进行基于文本的推理。受其他作品的启发Show-O 采用离散去噪扩散来建模图像标记而不是连续表示。此外Show-O 固有地对文本条件信息进行编码从而无需额外的文本编码器。通过利用文本和图像标记器Show-O 可以处理各种输入数据和任务为视觉语言任务自回归地提供答案并使用离散去噪扩散生成图像。 Show-O 在各种基准测试中表现出与具有同等或更多参数的单个模型相当的性能在某些情况下甚至更好。与自回归图像生成不同Show-O 框架所需的采样步骤减少了约 20 倍因此本质上速度更快。此外Show-O 框架支持下游应用程序例如文本引导修复和外推而无需进行微调如下图所示。 Show-O 还具有混合模态生成的潜力例如带有文本描述的交错视频关键帧生成这为长视频生成带来了希望。此外Show-O 框架研究了离散和连续图像表示对多模态理解的影响为未来的统一模型设计提供了见解。 下图展示了 Show-O 框架与各个领域现有方法的模型特征比较。Show-O 脱颖而出成为集成了多模态理解和生成的先进技术的统一模型。 总而言之本文的主要贡献如下 Show-O 是统一模型 它使用单个转换器集成多模式理解和生成。Show-O 统一自回归和离散扩散建模 在一个转换器中可以有效地处理文本和图像。Show-O 框架优于或匹配单个基线模型 在多模式理解和生成基准中具有等效或更大的参数。Show-O支持下游应用程序 就像基于文本的修复和外推而无需微调并展示了混合模态生成的潜力。Show-O 探索不同类型的表现形式的影响为提高统一模型中的多模式理解提供了宝贵的见解。 近年来越来越多的研究集中于能够理解和生成的统一多模态语言模型。一些研究使用与文本标记交织的连续表示进行自回归建模以生成图像。SEED-X 提出了一个统一且多功能的基础系统能够处理多模态理解和生成任务。在这种方法中来自 CLIP ViT 编码器的连续图像表示与文本标记相结合并输入到大型语言模型 (LLM) 中以执行下一个单词预测和图像表示回归。Chameleon 引入了一系列基于标记的混合模态模型既能理解又能生成图像。这种方法将所有模态表示为离散标记利用统一的基于转换器的架构并以端到端的方式从头开始训练模型。相比之下Show-O 也采用离散标记来表示所有模态但使用离散扩散过程而不是自回归建模进行视觉生成。 3. SHOW-O方法论和架构 Show-O 框架的主要目标是开发一个集成自回归和扩散建模的统一模型以实现联合多模态理解和生成。开发这样一个统一的模型面临着巨大的挑战核心问题围绕以下方面i) 定义模型的输入/输出空间ii) 统一来自不同模态的各种类型的输入数据iii) 将自回归和扩散建模集成到一个转换器中iv) 有效地训练这样一个统一的模型。 Show-O 通过以下解决方案解决这些挑战 Show-O 通过将文本和图像数据标记为离散的标记来构建输入/输出空间。Show-O 引入了其默认架构和统一的提示策略来构建输入数据和模态。Show-O 演示了如何在单个变压器中结合自回归和扩散建模。Show-O 提出了三阶段训练流程来有效地训练统一模型。 3.1 符号化 鉴于提议的 Show-O 建立在 预训练法学硕士在离散空间中进行统一学习是很自然的。通过维护包含离散文本和图像标记的统一词汇表Show-O 承担着相同的学习目标预测离散标记。 3.2 文本标记 Show-O 基于预先训练的 LLM并且使用相同的标记器进行文本数据标记化无需任何修改。 3.3 图像标记 继 MAGVIT-v2 之后Show-O 使用大约 35M 图像数据训练了一个无查找量化器。量化器维护一个大小为 8,192 的码本并将 256×256 分辨率的图像编码为 16×16 离散标记。选择 MAGVIT-v2 是因为它易于微调适合用作具有时间压缩功能的视频标记器这是 Show-O 计划在未来探索的一个方面。另一种方法是分别使用不同的标记器进行理解和生成。受现有研究的启发Show-O 还从预先训练的 MAGVIT-v2 和 CLIP-ViT 编码器中提取连续图像表示以探索多模态理解能力的改进。在以下章节中默认的 Show-O 使用离散图像标记作为多模态理解和生成的输入。为简单起见方法论部分将仅详细介绍默认的 Show-O。 3.4 建筑 Show-O 继承了 现有法学硕士 无需任何架构修改只需在每个注意层前面添加一个 QK-Norm 操作即可。Show-O 使用预训练的 LLM 的权重进行初始化并通过合并 8,192 个新的可学习离散图像标记嵌入来扩展嵌入层的大小。与需要额外文本编码器的最先进的扩散模型不同Show-O 固有地对文本条件信息进行编码以生成文本到图像。 3.5 统一提示 为了对多模态理解和生成进行统一学习Show-O 采用统一的提示策略来格式化各种输入数据。给定一个图像-文本对 (x, y)首先由图像和文本标记器分别将其标记为 M 个图像标记和 N 个文本标记。然后根据任务类型将标记形成输入序列如下图所示。 通过采用这种提示设计Show-O 可以有效地将各种输入数据编码为序列数据以进行多模态理解、文本到图像生成和混合模态生成。这种设置使统一学习能够在这些不同任务的序列之间无缝运行。经过训练后Show-O 可以处理各种视觉语言任务包括视觉问答和文本到图像生成。 3.6 全注意力机制 与现有仅对序列进行自回归建模的作品不同Show-O 引入了全注意力机制使其能够以不同的方式对各种类型的信号进行建模。这种全面的注意力机制会根据输入序列的格式自适应地在因果注意力和全注意力之间切换。下图说明了针对不同输入序列的全注意力示例。 具体来说Show-O 通过因果注意处理序列中的文本标记而使用全注意处理图像标记从而使每个标记能够与所有其他标记进行全面交互。在多模态理解中文本标记可以关注所有先前的图像标记而在文本到图像生成中图像标记可以与所有先前的文本标记进行交互。全注意保留了来自预训练 LLM 的文本推理知识并通过减少采样步骤提高了图像生成的效率。此外它还支持各种下游应用例如修复和外推而无需进行微调。当仅给出文本标记时该机制默认为因果注意。 4. SHOW-O实验和结果 下表展示了 Show-O 在公共基准测试例如图像字幕和视觉问答任务上的多模式理解能力。 Show-O 的当前版本基于 Phi-1.5 构建因此 Show-O 的仅理解版本 LLaVA-v1.5-Phi-1.5 可作为直接基准。Show-O 在所有评估指标中的表现都与专用于多模态理解的基准 LLaVA-v1.5-Phi-1.5 相当。这证明了 Show-O 框架在单个转换器中统一多模态理解和生成的巨大潜力。与仅理解模型如 InstructBLIP、Qwen-VL-Chat 和 mPLUG-Owl2相比Show-O 尽管模型尺寸小得多但在 POPE、MME、Flickr30k 和 VQAv2 基准上实现了具有竞争力的性能并且在 GQA 基准上表现更好。与具有更多参数的统一模型例如 NExT-GPT-13B 和 Chameleon-34B相比Show-O 在 Flickr30k 基准上也表现出色在 VQAv2 基准上的表现也更加出色。 鉴于这些令人鼓舞的结果Show-O 有望成为统一理解和生成的潜在下一代基础模型。这些结果还展示了扩展 Show-O 以实现最先进性能的潜力。 4.1 定性比较 我们与基于扩散的模型例如 SDv1.5、SDXL 和基于自回归的模型 LlamaGen以及统一模型例如 LWM 和 SEED-X进行了定性比较如下图所示。 Show-O 展示了生成逼真图像的能力短文本提示和长文本提示中的内容一致。与 SDv1.5 和 LlamaGen 相比Show-O 表现出更好的视觉质量和更强的图像文本对齐能力。例如在第二列中SDv1.5 和 LlamaGen 都无法完全理解文本提示并且会忽略生成的图像中的“日落”和“蓝色穹顶”等属性。与 SDXL 相比Show-O 提供了相当的视觉质量和对齐能力如“拉力赛车”和“与绚丽日落形成鲜明对比”等示例所示。 4.2 文本引导修复和推断 Show-O 自然支持基于文本的修复和推断无需任何微调。下图说明了几个示例。 在图的顶部给定一张输入图像和一个修复蒙版Show-O 可以根据用户提供的文本提示将一辆红色电车变成一辆具有光滑曲线和有色窗户的蓝色跑车。Show-O 还可以根据给定的文本提示水平或垂直推断原始图像。例如在第二行中Show-O 通过添加新对象如“红色野花”来推断图像。修复和推断区域中的像素与原始图像保持一致。这些示例清楚地证明了 Show-O 相对于自回归模型在下游应用中的固有优势。 5.总结 在本文中我们讨论了 Show-O这是一种集成了多模态理解和生成的统一转换器。与完全自回归模型不同Show-O 统一了自回归和离散扩散建模以自适应地处理各种混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中Show-O 表现出与具有同等或更多参数的现有单个模型相当或更优的性能凸显了其作为下一代基础模型的潜力。在这个框架中模型的任务是预测添加到连续潜在表示中的高斯噪声。相比之下其他模型如 D3PM、Mask-predict、ARDM 和 MaskGIT使用离散损坏过程作为高斯扩散的替代。Show-O 是第一个统一自回归和离散扩散建模的模型使其能够以不同的方式处理不同的模态。大量实验结果表明Show-O 在广泛的视觉语言任务中可与单个专家模型相媲美甚至优于单个专家模型。这凸显了其作为下一代基础模型的潜力。
http://www.dnsts.com.cn/news/111806.html

相关文章:

  • 网站后台地址忘了苏州app软件开发公司
  • 如何用服务器搭建自己的网站如何修改网站备案
  • 电商网站开发文档莱芜房产网二手房出售信息
  • 预付网站制作费怎么做凭证铜川北京网站建设
  • 深圳 福田 网站建设软件开发文档管理工具
  • 小说网站搭建教程济南seo优化外包服务
  • 如何搭建自己的网站服务器地址免费素材免费下载
  • 怎么把现有网站开发php广州网站优化建设
  • 库尔勒谁在做电商网站建设网站的竞品分析怎么做
  • 办网站如何备案seo免费自学的网站
  • 如何做论坛网站 知乎济南百度公司做网站吗
  • 好网站制作企业网站建设论文5000
  • 婚庆设计网站模板网站没有备案做竞价吗
  • 网站标题和关键词一样湖南seo网站开发
  • 响应式网站建设过时吗wordpress读音
  • 怎么自己免费创建网站wordpress接口发布文章
  • 做房产的网站东营远见网站建设公司
  • 网站建设技术支持牛商网php网站培训
  • 哪里有建网站的网站分析工具有哪些
  • 学软件工程可以从事什么工作北京大型网站优化
  • 浙江建设网站是多少揭阳做网站公司
  • 大流量网站开发做行程规划的旅行网站
  • 做网站开发考什么研163免费邮箱注册
  • 企业宣传网站建设说明书wordpress音乐模板
  • 高端网站制作服务建设银行网站修改预留手机号
  • 坪山网站建设流程2345网止导航
  • 百丽鞋业网站建设网站开发 百度编辑器
  • 网站建设在整体布局有哪些要求山东教育网站开发公司
  • 开发公司网签的流程论坛seo教程
  • 做一个中英文网站多少钱微信网站开发软件