当前位置: 首页 > news >正文

深圳低价网站建设烟台优化网站排名

深圳低价网站建设,烟台优化网站排名,wordpress 修改上传路径,公司项目推广有什么方式#x1f34e;个人主页#xff1a;小嗷犬的个人主页 #x1f34a;个人网站#xff1a;小嗷犬的技术小站 #x1f96d;个人信条#xff1a;为天地立心#xff0c;为生民立命#xff0c;为往圣继绝学#xff0c;为万世开太平。 基本信息 标题: Visual Instruction Tunin… 个人主页小嗷犬的个人主页 个人网站小嗷犬的技术小站 个人信条为天地立心为生民立命为往圣继绝学为万世开太平。 基本信息 标题: Visual Instruction Tuning 作者: Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee 发表: Advances in Neural Information Processing Systems 36 (NeurIPS 2023) arxiv: https://arxiv.org/abs/2304.08485 项目主页: https://llava-vl.github.io/ 摘要 使用机器生成的指令遵循数据对大型语言模型LLMs进行指令微调已被证明可以提升新任务上的零样本能力但在多模态领域这一想法探索较少。 我们首次尝试使用仅语言GPT-4生成多模态语言-图像指令遵循数据。 通过对这些生成数据进行指令微调我们引入了LLaVA大型语言和视觉助手这是一个端到端训练的大规模多模态模型它将视觉编码器和LLM连接起来以实现通用视觉和语言理解。 为了促进未来对视觉指令遵循的研究我们构建了两个具有多样性和挑战性应用任务的评估基准。 我们的实验表明LLaVA展示了令人印象深刻的跨模态聊天能力有时在未见过的图像/指令上表现出多模态GPT-4的行为并在一个合成的多模态指令遵循数据集上相对于GPT-4实现了85.1%的相对分数。 当在科学问答Science QA上进行微调时LLaVA和GPT-4的协同作用达到了92.53%的新最精确度。 我们将GPT-4生成的视觉指令微调数据、我们的模型和代码公开提供。 主要贡献 提出了一种视觉指令数据生成的方法流程设计并训练了LLaVA在Science QA上达到了SOTA提出了一个有挑战性的多模态指令遵循BenchmarkLLaVA-Bench(COCO and In-the-Wild)开源代码 GPT辅助视觉指令数据生成 基于COCO数据集将其文本标签输入到GPT-4构造出三类视觉指令数据 Conversation对话数据。以对话形式提出关于图像视觉内容的一系列问题包括物体类型、计数物体、物体动作、物体位置以及物体之间的相对位置。Detailed description详细描述。对图像进行丰富而全面的描述。Complex reasoning复杂推理。深入推理问题答案通常需要遵循严谨逻辑的逐步推理过程。 视觉指令调优 模型结构 Visual Encoder: CLIP ViT-L/14Projection: Linear Layer w/o BiasLanguage Model: Vicuna 训练流程 两阶段训练 Stage 1 特征对齐预训练: 数据集: CC595KProjection❄️Visual Encoder, Language Model Stage 2 端到端微调训练: 数据集: Multimodal Chatbot, Science QAProjection, Language Model❄️Visual Encoder Benchmark LLaVA Benchmark (COCO)。从COCO-Val-2014中随机选择了30张图像每张图像生成上述三类问题一共得到90个图像-指令对。LLaVA Benchmark (In-the-Wild)。收集了24张多样化的图像构造了共60个问题为每张图像关联了一个高度详细且人工精选的描述并选择了适当的问题。 实验 训练数据消融实验 主实验 LLaVAGPT-4(complement): GPT-4先回答没答出来的让LLaVA答LLaVAGPT-4(judge): 二者分别回答GPT-4总结二者回答得到最终回答 设计选择消融实验 Best variant: Vision Encoder使用哪一层特征作为输出Before为倒数第二层Last为最后一层Predict answer first: 思维链能帮助更快收敛但无法提高性能上限Training from scratch: 从头训练 or 预训练7B model size: 大模型参数降为7B原为13B 总结 本文展示了视觉指令微调的有效性。 作者提出了一种自动流程来创建语言-图像指令跟随数据基于此我们训练了LLaVA一个多模态模型用于跟随人类意图完成视觉任务。 它在ScienceQA上进行微调时达到了新的SoTA准确率在多模态聊天数据上进行微调时具有出色的视觉聊天能力。 此外作者提出了第一个用于研究多模态指令跟随能力的基准。 作者希望本工作能够激发未来关于构建更强大多模态模型的研究。
http://www.dnsts.com.cn/news/277093.html

相关文章:

  • wordpress 自动头像济南网站seo 优帮云
  • 官方网站welcome怎么注册最近国内重大新闻事件
  • 中国公司查询网站合肥网站设计制作
  • 中国银行全球门户网站saas软件
  • seo做的好的网站有哪些做农家乐网站
  • 国外那些视频网站做的不错wordpress二次元 插件
  • 网站rss怎么做厦门商城网站建设
  • 做百度手机网站点击软有哪些网站做的比较好看
  • 主视觉设计网站自己做的网站 360不兼容
  • 微信小程序建站做产地证的网站
  • 昆明网站seo外包天元建设集团有限公司青岛
  • 制作网站常用软件微信公众号网站建设游戏
  • 网站轮播图片特效代码怎么做网站
  • app科技网站建设什么是开放式的网站
  • 外贸平台网站的营销方式网站 中国最早做网站的
  • 白云区同和网站建设网站功能简介
  • 外贸网站建站推广六安做网站多少钱
  • 山东济宁网站建设东莞个人网站推广建设
  • 莱芜网站优化是什么手机网站 数据库
  • 五金表带厂东莞网站建设wordpress图片链接属性
  • 搬家公司网站建设价格国外做网站用的程序
  • 深圳做微网站公关网站建设
  • 网站怎么优化建立网站要什么条件和多少钱
  • html5的网站9420高清完整版视频在线观看1
  • 装修网站建设公司上海预计几号全部解封
  • 营口规划建设局网站网站制作涉及哪些方面
  • 广东官网网站建设价格263云通信企业邮箱
  • 网站上线流程分为网站如何快速收录
  • 网络营销上的网站建设流程住房和城乡建设部网站打不开
  • 招网站建设销售wordpress app中文版