当前位置: 首页 > news >正文

临沧网站搭建国际知名设计公司名称

临沧网站搭建,国际知名设计公司名称,域名怎么申请,门店推广是什么意思欢迎关注我的CSDN#xff1a;https://spike.blog.csdn.net/ 本文地址#xff1a;https://spike.blog.csdn.net/article/details/142063880 免责声明#xff1a;本文来源于个人知识与公开资料#xff0c;仅用于学术交流#xff0c;欢迎讨论#xff0c;不支持转载。 完备(F… 欢迎关注我的CSDNhttps://spike.blog.csdn.net/ 本文地址https://spike.blog.csdn.net/article/details/142063880 免责声明本文来源于个人知识与公开资料仅用于学术交流欢迎讨论不支持转载。 完备(Full-Fledged) 的 多模态大语言模型(MLLM) 经历 3 个阶段的训练即 预训练(Pre-training)、指令微调(Instruction-Tuning) 和 对齐调优(Alignment Tuning)。每个训练阶段都需要不同类型的数据并且实现不同的目标。本篇介绍预训练(Pre-training) 部分。 1. 预训练(Pre-training) 预训练 (Pre-training) 的目的是对齐不同的模态学习多模态的知识核心是训练 连接器(Connector)模态编码器与 LLM 都是已训练的。预训练的数据是大量的图像文本对数据预训练的 损失(Loss) 是 交叉熵(Cross-Entropy)。图像文本对的示例文本描述计算 Loss即 Input: image Response: {caption}在 MLLM 中 连接器(Connector) 类型主要包括 3 类即 基于映射(Projection-Based)、基于查询特征(Query- Based)基于融合特征(Fusion-Based)即 在 MLLM 的训练过程中一般而言冻结 模态编码器 与 LLM因为这些大模型已经进行大量数据的预训练因此只训练连接器的 可学习接口(Learnable Interface) 即可。注意 Qwen-VL 的训练方式有所不同不同阶段模态编码器与 LLM 也会参与训练。训练策略是与训练数据相关的当数据质量较低时使用低分辨率(224x224)训练而数据质量较高使用高分辨率(448x448)训练。 在预训练阶段数据集的作用主要是 (1)对齐不同模态和 (2)提供更充分的世界知识。常用的数据集包括 粗粒度(Coarse-grained) 数据和 细粒度(Fine-grained) 数据 两类即 粗粒度数据集数据量大样本通常来源于互联网由于是从网络上抓取的标题通常较短且带有噪声因为描述文本来源于网页图片的 替代文本(alt-text, alternative text)再使用预训练的图像模型 CLIP 进行清洗。细粒度数据集通常包含更长、更准确的图像描述从而实现图像与文本模态之间更细粒度的对齐。 主要的数据集包括 通过 提示能力强大的多模态语言模型(例如GPT-4V) 可以生成高质量的细粒度数据与粗粒度数据相比这些数据通常包含更长、更准确的图像描述从而实现图像与文本模态之间更细粒度的对齐。然而由于这种方法通常需要调用商业用途的机器学习语言模型成本较高数据量相对较小。解决方式是先标注小批量的数据集训练 Caption 模型再进行更大规模的标注。 参考论文 Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond2023.8ShareGPT4V: Improving Large Multi-Modal Models with Better Captions2023.11LLaVA-1.5 - Improved Baselines with Visual Instruction Tuning2023.10CC-3M - Conceptual Captions: A Cleaned, Hypernymed, Image Alt-text Dataset For Automatic Image Captioning2020CC-12M - Conceptual 12M: Pushing Web-Scale Image-Text Pre-Training To Recognize Long-Tail Visual Concepts2021CVPRGoogle AISBU Captions 1M - Im2text: Describing images using 1 million captioned photographs2011NIPSLaion-5b: An open large-scale dataset for training next generation image-text models2022NIPSLaion coco: 600m synthetic captions from laion2b-enWeb2022Coyo-700m: Image-text pair datasetWeb2022 2. Qwen-VL 的全训练 Qwen-VL训练主要包括 3 个阶段预训练(Pretraining)、多任务预训练(Multi-Task Pretraining)、有监督微调(Supervised Finetuning)即 预训练(Pretraining) 阶段冻结大语言模型只优化视觉编码器和视觉语言适配器。输入图像调整至 224×224训练目标是最小化文本标记的交叉熵。多任务预训练(Multi-Task Pretraining) 阶段将视觉编码器的输入分辨率从 224×224 提高至 448×448减少图像下采样造成的信息损失同时解锁大语言模型这样就是对于整个模型进行训练训练目标与预训练阶段相同。监督微调(Supervised Finetuning) 阶段通过 指令微调(Instruction Fine-tuning) 来对 Qwen-VL 预训练模型进行微调以增强其遵循指令和对话能力从而产生交互式的 Qwen-VL-Chat 模型。在训练期间混合多模态和纯文本的对话数据确保模型在对话能力上的通用性。在这个阶段冻结视觉编码器优化大语言模型和适配器模块。 也就是说每一阶段都训练适 配器(Adapter) 模块第一阶段额外增加训练视觉编码器第二阶段是全部训练第三阶段额外增加训练大语言模型。 如图 Qwen2-VL (2024.8.29) 的动态分辨率与之前不同Qwen2-VL 能够处理任意图像分辨率映射到动态数量的视觉 Token 中不同尺寸的图像使用不同数量的 Token提供更加类似人类的视觉效果体验框架如下 Qwen2-VL 的多模态旋转位置编码(M-RoPE)将位置嵌入分解成多块用于捕捉一维文本、二维视觉和三维视频的位置信息增强其多模态处理能力参考 3. ShareGPT4V - 细粒度(Fine-grained) 数据集 ShareGPT4V构建高质量的 ShareGPT4V 数据集包括世界知识(World Knowledge)、目标属性(Object Properties)、空间关系(Spatial Relationships)、美学评估(Aesthetic Evaluations)等图像描述来源于 GPT-4V。在 监督微调(Supervised Finetuning) 阶段中使用高质量数据可以有效的提升模型性能。模型架构与 LLaVA 1.5 类似模态编码器是 CLIP-Large、映射器(Projector) 是两层的 MLP、LLM 是 Vicuna-v1.5多模态训练只训练映射器 MLP。 效果如图 LLaVA-1.5 的架构视觉编码器使用 CLIP ViT-L/336px视觉-语言连接器使用简单的 MLP大语言模型使用 Vicuna v1.5 13B。如下 LLaVA-1.5-HD 的架构将 LLaVA-1.5 扩展至更高分辨率将图像分割成网格独立编码。这使得模型能够扩展到任何分辨率而无需为 ViTs 执行位置嵌入插值同时还会额外连接一个降采样图像的特征以提供给 大语言模型(LLM) 全局上下文。如图 4. 粗粒度(Coarse-grained) 数据集 CC-3M 数据集Conceptual Captions概念描述数据处理流程 对于图像过滤掉含有不适当内容或长宽比不当的图像。对于文本使用 自然语言处理(NLP) 工具获取文本注释根据设计的启发式规则过滤样本。对于图像-文本对通过分类器为图像分配标签。如果文本注释与图像标签不重叠相应的样本将被丢弃。 数据样例如下 CC-12M 数据集即使 替换文字(alt-texts) 不完全精确地描述网络图像这些数据仍然增加例如相扑、山竹和水母这样的长尾视觉概念提供丰富的资源。通过放宽概念描述 (Conceptual Captions) 中过于严格的过滤器将视觉和语言预训练数据扩展至 12M (1200万)。通过CC-12M 包括长尾数据进行微调显著降低模型的幻觉即 SBU Captions 1M 数据集SBUStony Brook University (美国纽约州立大学石溪分校)来源于 Flickr 网站带标题照片集合的、带有用户相关标题的照片并且通过筛选制作一个包含超过 1M(100万) 张良好标题图片的数据集。具体来说通过使用大量查询词在 Flickr 网站上查询初步获取一组图像这些图像附带的描述作为标题然后为确保描述与图像相关保留的图像满足以下要求 图像的描述长度令人满意这是通过观察决定的。图像的描述至少包含两个预定义词汇表中的词汇和一个表征性词汇 (例如on、under等)通常表示空间关系。 具体的系统流程 输入查询图像使用全局图像表示从带标题集合中检索候选匹配图像提取关于图像内容的高级信息包括目标、属性、动作、人物、物品、场景以及 TF-IDF 加权通过结合所有内容估计重新对于图像进行排名得出前 4 个结果标题。 即 LIAON-5B这个数据集是 多语言(Multilingual) 版本英文数据集是 2B大型的 网络规模 (Web-Scale) 数据集包含从互联网上抓取的图像以及与之相关的 替代文本(alt-text) 作为标题。为了筛选图像-文本对执行了以下步骤 丢弃 文本长度过短或图像尺寸过小或过大 的图像-文本对。基于 URL 进行图像去重。提取 CLIP 嵌入向量用于图像和文本并且使用这些嵌入向量来丢弃可能的非法内容以及嵌入向量之间余弦相似度低的图像-文本对。 如图 样本示例
http://www.dnsts.com.cn/news/59986.html

相关文章:

  • 常州网站建设策划wordpress微信免签能用吗
  • 餐饮加盟网站建设方案沈阳市工伤网站做实
  • 网站建设的分类node做网站后台
  • 营销型网站建站步骤是什么意思南京本地网站建设
  • 做设计网站中国古风网站模板
  • 广州网站 制作信科便宜怎样做公司网页
  • 网站开发量软件开发培训出来好找工作吗
  • 网站建设流量是怎么回事鹿城做网站
  • 电脑什么软件做短视频网站建筑公司网站常用长尾词
  • 企业微信网站开发设计制作小船
  • 网站互点联盟ziranzhi wordpress
  • 建设主管部门网站wordpress4.9.2
  • android电影网站开发四川设计院排名
  • 太原网站建设优化工商注册费用大概多少
  • 沈阳市城乡建设局网站263邮箱登陆
  • 网站建设的分工内容济南网站系统优化
  • 珠海哪个建设网站建设好it运维工程师需要掌握什么技能
  • 昆明高端网站建设深圳宝安美容医院网站建设
  • 阿坝住房和城乡建设厅网站软文营销案例
  • 模版型网站是怎样的论坛推广工具
  • 网站技术方案怎么写网站分站系
  • 网站怎么群发关键词采集软件
  • 罗湖商城网站设计多少钱风险地区查询最新
  • 亚马逊网站如何做商家排名动画设计和动漫设计的区别
  • 自己做的网站绑定域名做的网站图片不显示
  • 怎建网站wordpress文章打开很慢
  • 桂林网站建站创建学校网站
  • 做网站可以干什么电商网站开发简历
  • 做网站找浩森宇特开源cms系统哪个好
  • 成品短视频网站源码搭建免费云南云南省建设厅网站