当前位置: 首页 > news >正文

门户网站建设基础术语网络广告视频

门户网站建设基础术语,网络广告视频,门户网站群建设,wordpress hook列表miniGPT-4的热度至今未减#xff0c;距离LLaVA的推出也不到半个月#xff0c;而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型#xff0c;它的名字叫mPLUG-Owl。 论文链接#xff1a;https://arxiv.org/abs/2304.14178…miniGPT-4的热度至今未减距离LLaVA的推出也不到半个月而新的看图聊天模型已经问世了。今天要介绍的模型是一款类似于miniGPT-4和LLaVA的多模态对话生成模型它的名字叫mPLUG-Owl。 论文链接https://arxiv.org/abs/2304.14178项目链接https://github.com/X-PLUG/mPLUG-Owl在线demohttps://modelscope.cn/studios/damo/mPLUG-Owl/summary mPLUG-Owl展现出强大的图文理解能力 以下是本文作者的试用结果 本文贡献如下 提出一种新的模块化的训练多模态大模型的方式提出测评集OwlEval以便测试多模态模型在视觉相关任务上的能力开源模型代码demo代码以及模型权重文件方便研究者进行进一步的研究。 mPLUG-Owl 模型架构 本文提出了 mPLUG-Owl其整体架构如图2所示。它由视觉基础模型 f V f_V fV​、视觉抽象模块 f K f_K fK​ 以及预训练语言模型 f L f_L fL​ 组成。视觉抽象模块将较长的、细粒度的图像特征概括为少量可学习的 Token从而实现对视觉信息的高效建模。生成的视觉 Token 与文本查询一起输入到语言模型中以生成相应的回复。 训练策略 如图1所示目前存在三种主要的训练策略来训练端到端的多模态LLM模型。这些策略分别是 在预训练和指令微调阶段冻结视觉模块和语言模块调整有限的参数如MiniGPT4。冻结视觉模块训练语言模块如Kosmos-1。在指令微调阶段冻结视觉模块训练语言模块如LLaVA。 然而这些模型都冻结了视觉模块的参数调整从而限制了不同模态之间的对齐。此外它们缺乏单模态和多模态数据的共同训练难以有效地激发大型模型的各种潜能。 为了克服这些限制mPLUG-Owl采用了一种不同的训练策略。首先其使用多模态数据训练视觉模块并冻结语言模块。这样可以让视觉特征贴合语言特征。然后其使用多模态和单模态数据联合调整语言模块的LoRA参数同时冻结视觉模块。这样模型可以学习多样化的单模态和多模态指令同时具备单模态和多模态多轮对话能力。 实验 定量分析 如图3所示本文在构建的多模态测评集 OwlEval 上对 mPLUG-Owl 进行了人工评估。评价结果分为四个等级 A-D代表对应的生成质量依次递减。从测评结果中可以看出mPLUG-Owl 取得了最佳的结果。 为了分别探究 mPLUG-Owl 在单轮对话和多轮对话上的性能本文还从 OwlEval 中单独抽出了一些单轮对话和一些多轮对话分别进行人工评估。结果如图4所示。可以发现mPLUG-Owl 具有较强的多轮对话能力。 消融实验 为了探究训练策略与指令数据的使用对模型结果的影响本文还展示了消融实验的结果如表2所示。 此外本文还发现了一个有趣的现象多模态数据的学习可以提高模型的文本单模态能力。正如表3所示使用ChatGPT对生成结果进行评分发现仅调整LoRA参数的mPLUG-Owl在纯文本生成能力上击败了全参数调整的Alpaca。 定性分析 从图6中可以发现mPLUG-Owl有较强的多轮对话能力。 从图7中可以发现mPLUG-Owl还具有很强的推理能力。 尽管mPLUG-Owl已具有较强的图文理解能力但和GPT-4相比仍有一些差距。如图8所示mPLUG-Owl虽然已经正确理解了笑点但错误地将VGA插头识别为了USB插头。 图9展示了一些额外的笑话解释例子。 如图10所示虽然在训练阶段并没有进行多图关联数据的训练。mPLUG-Owl展现出了一定的多图关连能力。 如图11所示尽管mPLUG-Owl在训练阶段仅接触了英文数据但其展现出了有趣的多语言能力。这可能是因为mPLUG-Owl中的语言模块采用了支持多语言的LLaMa从而出现了这一现象。 尽管mPLUG-Owl没有在带有标注的文档数据上进行训练但其仍然展现出了一定的文字识别和文档理解能力。测试结果如图12所示。 如图13、14所示mPLUG-Owl在多模态的开放式结尾续写方面展现出了较强的能力。 以下是更多有趣的例子 更多开源应用 智能通行团队模型、论文、博文、直播合集点击此处浏览。 ​DamoFD人脸检测0.5G RetinaFace人脸检测关键点模型 人脸活体检测模型-IR 人脸活体检测模型-RGB FLCM人脸关键点置信度模型 人脸表情识别模型FER 人脸属性识别模型FairFace ​
http://www.dnsts.com.cn/news/173188.html

相关文章:

  • wordpress 5.0.3文章编辑昆明seo网站
  • 吴江和城乡建设局网站常德网站开发服务
  • 免费自助建站系统如何建立公司官网
  • 企业网站建设入账广州镭拓科技网站建设公司
  • 可以做动画的网站怎么用dw做网站
  • 做网站和开发app有什么不同菲律宾做网站好吗
  • 怎么找回网站达县网站制作
  • 电子商务的网站怎么做江苏住房与城乡建设部网站
  • 建设部网站规范下载上海网站建设 分类广告
  • 给wordpress网站做ssl卸载网页版微信登录手机会显示吗
  • 企业网站管理系统推荐互联网大厂一般指哪些公司
  • 十大免费数据网站网络推广策略的种类
  • 亚马逊网站网址股权融资
  • 网站建设项目策划书模板范文哪家网站设计比较好
  • 怎么样做个网站吉林科技网站建设
  • 网站发布之后上传文件路径变了360建筑网电脑版
  • asp网站没有数据库橙云的主机支持放两个网站吗
  • 宁海有做网站的吗静态网站的好处
  • 大圣网站建设xampp wamp wordpress
  • 网站开发需求调研网站建设职业发展前景
  • 闽清县建设局网站营销计划怎么写
  • 河源网站seo厦门市建设局网站文件
  • 宝安中心医院上班时间seo管理系统易语言
  • 做照片书哪个网站好突出什么 加强网站建设
  • 网站推广成本科技公司 网站模板
  • 电商网站设计周志seowhy什么意思
  • 郑州建设网站的公司搜索引擎营销是什么意思
  • 淘宝客网站做seo怎样利用网站做淘宝客
  • 狗狗和人做网站网站建设制作介绍河南
  • 本地网站模板修改万网放网站