当前位置：首页 > news >正文

服装网站开发目的自动摘要wordpress

news 2026/2/15 23:09:40

服装网站开发目的,自动摘要wordpress,海南住房与城乡建设网站,贵阳网站建设包首页谷歌推出了一种创新性的合成图像框架#xff0c;这一框架独特之处在于它完全不依赖真实数据。这个框架首先从合成的图像标题开始#xff0c;然后基于这些标题生成相应的图像。接下来#xff0c;通过对比学习的技术进行深度学习#xff0c;从而训练出能够精准识别和理解这些…谷歌推出了一种创新性的合成图像框架这一框架独特之处在于它完全不依赖真实数据。这个框架首先从合成的图像标题开始然后基于这些标题生成相应的图像。接下来通过对比学习的技术进行深度学习从而训练出能够精准识别和理解这些图像的模型令人惊讶的是这种方法在各种下游任务中都表现出色。让我们一起来看看使用了什么神奇的魔法论文标题: Learning Vision from Models Rivals Learning Vision from Data论文链接: https://arxiv.org/pdf/2312.17742.pdf 引言集大规模的真实数据往往伴随着许多挑战未经筛选的庞大数据集虽然成本较低但其效益却是有限的而精细筛选的小规模数据集虽然更为精确但却限制了模型的广泛应用。为了克服这些障碍一项新的研究提出了一种独特的解决方案——利用合成数据来学习视觉表示。这种方法通过生成大量的图像标题和相应的图像实现了有效的对比学习能够将共享同一标题的图像视为相互匹配的正例。研究团队特别强调这种基于合成数据的学习方法不仅展现了卓越的可扩展性而且在多种下游任务中展现了与传统方法相媲美的卓越性能。传统学习方法Learning from data侧重于纯粹从真实数据中汲取知识。一个典型的例子是CLIP模型它直接从文本和图像数据集中提取信息在ImageNet上实现了令人瞩目的80.2%的线性转移精度。混合学习方法Hybrid则采用了一种双管齐下的策略结合真实文本和生成图像进行学习。例如StableRep模型就是在这样的框架下运作它利用文本数据集和图像生成器进行学习在ImageNet上也取得了相当不错的76.7%的线性转移精度。而本文提出的基于模型生成的方法Learning from models——SynCLR标志着一次创新的飞跃。它通过从合成文本和合成图像中学习即便没有直接接触任何真实数据也能在ImageNet上展现出与CLIP相匹敌的竞争力达到了非常优秀的80.7%的线性转移精度。方法 SynCLR的核心创新在于它通过生成模型重新界定了视觉类别的细粒度。与传统的自监督和监督学习方法相比SynCLR独特地以标题作为类别定义其中每个标题都细致地描述了一个视觉类别。这一方法的巧妙之处在于它允许按照标题所共享的语义将图像分组而非仅限于更为宽泛的类别标签如“金毛寻回犬”等。在实验中这种以标题为基础的精细分类方式证明了其优于传统自监督和监督训练方法的效果。该系统包括以下三个步骤生成图像标题首先作者们成功地生成了一个庞大的图像标题语料库。为了实现这一目标他们巧妙地利用了大型语言模型LLMs的上下文学习能力精心设计了一系列的提示模板以指导LLM根据特定上下文产生相关联的文本内容。通过从现有数据集如ImageNet-21k和Places-365中精选概念列表作者们为每个概念构建了特别的提示引导LLM生成描述性且富有创意的图像标题。这一过程的核心在于确保生成的标题既准确描述图像内容又展现足够的多样性以覆盖广泛的视觉概念。这种多样性至关重要因为它保证了生成的图像集可以代表尽可能多样的场景、对象和活动进而提高学习到的视觉表示的泛化能力。通过这种方式作者们合成了大量多样化的图像标题这些标题随后用于指导图像生成模型生成相应的合成图像。将这些合成图像与合成标题结合起来形成了一个用于训练视觉表示学习模型的丰富数据集。这种方法使得在完全没有真实图像数据的情况下进行视觉模型训练成为可能为传统依赖真实数据集的视觉学习方法提供了一种创新且有效的补充。在下图中研究团队提供了一个上下文左侧用于指导模型根据给定的类别对例如“tiger, forest”或“groom, wedding ceremony”生成具体的描述性标题。例如在实际生成的结果中右侧对于“red fox, yard”这一类别对模型生成了以下标题“wild red fox sitting on a partially snow covered front yard of a house in the suburbs of a small city”。在这个过程中每次推理都会随机选择三个这样的上下文实例。图像生成研究团队采用了一种创新的方法来生成图像即通过不同的随机噪声启动反向扩散过程。在这个过程中Classifier-Free GuidanceCFG比例扮演着至关重要的角色它有效地平衡了样本质量、文本与图像之间的一致性以及样本多样性之间的关系。为了为每个文本描述生成一系列不同的图像团队调整了随机噪声输入从而丰富了生成图像的多样性。表示学习方法这一表示学习方法是在StableRep方法的基础上构建的引入了一种多正面对比学习损失。其核心思想是在嵌入空间中将由相同标题生成的图像对齐同时融合了其他自监督学习方法中的多种技术包括补丁级掩蔽图像建模目标。 StableRep StableRep方法通过比较不同样本之间的相似性和差异性最小化交叉熵损失。这一策略训练模型识别和区分由相同或不同标题生成的图像。 iBOT iBOT方法采用掩蔽图像建模目标其中局部补丁被掩盖而模型的任务是预测这些被掩盖的补丁的标记表示。这一策略将DINO模型从图像级别调整到补丁级别。指数移动平均EMA EMA最初由MoCo在自监督学习中引入用于编码作物并生成iBOT损失的目标。在训练期间EMA模型按照余弦计划更新以平滑模型参数的更新过程从而使模型在训练过程中保持稳定性。多作物策略多作物策略作为一种提高计算效率的方法允许模型从多个视角和上下文中学习增加了训练样本的多样性并提升了表示的泛化能力。具体而言StableRep通过最小化真实分配和对比分配之间的交叉熵损失来提高效率。在这个框架中存在一个编码的锚点样本和一组编码的候选样本集合。对比分配分布描述了模型预测锚点样本和每个候选样本是否由相同标题生成的概率。他们使用指示函数来标识两个样本是否来自同一个标题。实验研究团队对其模型进行了长达500k步骤的预训练采用8192个标题的大批量尺寸所有预训练任务均在224x224分辨率下进行。他们将SynCLR与OpenAI的CLIP、OpenCLIP以及DINO v2进行了对比这些模型分别代表了不同的从数据中学习的方法。特别指出的是DINO v2中的ViT-B/14和ViT-L/14是由ViT-g模型蒸馏得来这一点在比较时为DINO v2带来了优势。 ImageNet线性评估为了进行公平的比较所有模型均使用最后一个块的cls令牌作为表示与DINO v2使用多层串联的结果相比。据表6所示SynCLR在ViT-B结构上达到了80.7%的成绩在ViT-L结构上则达到了83.0%。这些成绩与那些直接从真实数据中学习的模型如CLIP和DINO v2相当尽管SynCLR仅使用了合成数据。 UperNet语义分割研究团队在UperNet语义分割中采用了单一尺度512x512分辨率部分模型为适应518x518分辨率而使用了14x14的补丁尺寸。他们使用了600M的合成数据与包括MoCo v3、SimMIM、MAE、PeCo、data2vec、iBOT、BEiT v2、CLIP和OpenCLIP在内的其他模型进行了对比这些模型主要是基于真实的ImageNet数据预训练的。SynCLR在mIoU指标上分别在标准分辨率和高分辨率下达到了54.3%和57.7%与使用真实数据训练的模型相比表现十分出色。 ImageNet图像分类 SynCLR在ImageNet图像分类方面的表现也值得关注。使用600M合成数据SynCLR与采用不同数据集如IN21K、WIT-400M和LAION-2B预训练的各种模型进行了比较。在ViT-B结构上SynCLR的Top-1准确率为85.8%而在ViT-L结构上则为87.9%均优于多数使用真实数据训练的模型。这些结果明确表明尽管完全依赖合成数据SynCLR方法在视觉表示学习领域仍能与依赖真实数据的模型媲美展示了这一方法的显著有效性和巨大潜力。小结作者们提出了以下关键观点和结论从生成模型中学习的理由生成模型的一个显著优势在于其能够同时扮演成百上千个数据集的角色。在传统的研究方法中研究者往往需要为不同的图像类别比如汽车、花朵、猫、狗等单独收集数据集。而像DINO v2这样的系统通过综合和整合大量这类数据集能够构建出强大且鲁棒的表征。生成模型的显著优势与传统的数据收集和标注方法相比生成模型提供了一个更加高效、范围更广的视觉概念覆盖方式。这一方法免去了在真实图像数据收集和标注上耗费的大量时间和资源。论文强调了合成数据在视觉表示学习中的关键作用。尽管在分类精度方面合成数据可能不及真实数据但在训练视觉表示模型方面合成数据展现出了极高的效果。这些训练好的表示随后可以轻松适应于真实数据量较小的下游任务显示出合成数据的实用性和适应性。

查看全文

http://www.dnsts.com.cn/news/15932.html