深圳低价网站建设,烟台优化网站排名,wordpress 修改上传路径,公司项目推广有什么方式#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息
标题: Visual Instruction Tunin… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息
标题: Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023) arxiv: https://arxiv.org/abs/2304.08485 项目主页: https://llava-vl.github.io/ 摘要
使用机器生成的指令遵循数据对大型语言模型LLMs进行指令微调已被证明可以提升新任务上的零样本能力但在多模态领域这一想法探索较少。
我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。
通过对这些生成数据进行指令微调我们引入了LLaVA大型语言和视觉助手这是一个端到端训练的大规模多模态模型它将视觉编码器和LLM连接起来以实现通用视觉和语言理解。
为了促进未来对视觉指令遵循的研究我们构建了两个具有多样性和挑战性应用任务的评估基准。
我们的实验表明LLaVA展示了令人印象深刻的跨模态聊天能力有时在未见过的图像/指令上表现出多模态GPT-4的行为并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。
当在科学问答Science QA上进行微调时LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。
我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。
主要贡献
提出了一种视觉指令数据生成的方法流程设计并训练了LLaVA在Science QA上达到了SOTA提出了一个有挑战性的多模态指令遵循BenchmarkLLaVA-Bench(COCO and In-the-Wild)开源代码
GPT辅助视觉指令数据生成
基于COCO数据集将其文本标签输入到GPT-4构造出三类视觉指令数据
Conversation对话数据。以对话形式提出关于图像视觉内容的一系列问题包括物体类型、计数物体、物体动作、物体位置以及物体之间的相对位置。Detailed description详细描述。对图像进行丰富而全面的描述。Complex reasoning复杂推理。深入推理问题答案通常需要遵循严谨逻辑的逐步推理过程。 视觉指令调优
模型结构 Visual Encoder: CLIP ViT-L/14Projection: Linear Layer w/o BiasLanguage Model: Vicuna
训练流程
两阶段训练
Stage 1 特征对齐预训练: 数据集: CC595KProjection❄️Visual Encoder, Language Model Stage 2 端到端微调训练: 数据集: Multimodal Chatbot, Science QAProjection, Language Model❄️Visual Encoder
Benchmark
LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像每张图像生成上述三类问题一共得到90个图像-指令对。LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像构造了共60个问题为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。 实验
训练数据消融实验 主实验 LLaVAGPT-4(complement): GPT-4先回答没答出来的让LLaVA答LLaVAGPT-4(judge): 二者分别回答GPT-4总结二者回答得到最终回答
设计选择消融实验 Best variant: Vision Encoder使用哪一层特征作为输出Before为倒数第二层Last为最后一层Predict answer first: 思维链能帮助更快收敛但无法提高性能上限Training from scratch: 从头训练 or 预训练7B model size: 大模型参数降为7B原为13B
总结
本文展示了视觉指令微调的有效性。
作者提出了一种自动流程来创建语言-图像指令跟随数据基于此我们训练了LLaVA一个多模态模型用于跟随人类意图完成视觉任务。
它在ScienceQA上进行微调时达到了新的SoTA准确率在多模态聊天数据上进行微调时具有出色的视觉聊天能力。
此外作者提出了第一个用于研究多模态指令跟随能力的基准。
作者希望本工作能够激发未来关于构建更强大多模态模型的研究。