深圳网站建设收费,如何做网站同步,在线平面设计工具,网站域名和服务器到期在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后#xff0c;Alpha-CLIP可以在保证CLIP原始感知能力的前提下#xff0c;关注到任意指定区域。 GitHub - SunzeY/AlphaCLIP: [CVPR 2024] Alpha-CLIP: A CLI… 在原始的接受RGB三通道输入的CLIP模型的上额外增加了一个alpha通道。在千万量级的RGBA-region的图像文本对上进行训练后Alpha-CLIP可以在保证CLIP原始感知能力的前提下关注到任意指定区域。 GitHub - SunzeY/AlphaCLIP: [CVPR 2024] Alpha-CLIP: A CLIP Model Focusing on Wherever You Want
CLIP作为目前最流行的视觉基座模型被广泛使用。它的应用场景包括但不限于
1.与LLM大语言模型结合成为视觉多模态大模型。
2.作为图像生成(Stable Diffusion)、点云生成(Point-E)的condition model, 实现image-to-3D。
3.用于指导NeRF的优化方向从而实现text-to-3D。
4.本身用于开放类别的识别和检测。
然而CLIP必须以整张图片作为输入并进行特征提取无法关注到指定的任意区域。然而自然的2D图片中往往包含不同的物体part和thing。如果能由用户或检测模型指定需要关注的区域在图像编码的过程就确定需要关注的对象将会提升CLIP模型的可控制性和区域检测能力。
为了获取以区域为中心的 CLIP 特征传统的方法如下图所示
①将感兴趣的区域裁剪到不同的patch
②或将Mask应用于图像、特征和注意力掩码的不相关部分来排除不相关的区域。
这两种方法会破坏裁剪并省略在掩蔽中上下文信息然而上下文信息对于精确的图像理解和推理至关重要。
③在馈送到 CLIP 的图像上用圆圈或掩码轮廓突出感兴趣的区域。
尽管用户友好的但它改变了图像的原始内容这将导致不良识别和生成结果。 为了在不损害原始图像的情况下实现区域焦点我们提出了Alpha-CLIP它通过额外的alpha通道输入合并感兴趣的区域来改进CLIP[43]。除了 RGB 通道引入的 alpha 通道使 Alpha-CLIP 能够专注于指定区域同时保持对上下文信息的认识。在用CLIP[43]模型初始化时Alpha-CLIP的训练仍然需要大量的区域-文本配对集合数据。通过利用分段任意模型(SAM)和多模态大型模型进行图像字幕如BLIP-2[28]我们开发了一个有效的管道来生成数百万个易于转换为RGBA-文本数据的区域-文本对。在使用区域-文本对和图像-文本对的混合进行训练后Alpha-CLIP可以专注于特定区域同时保持CLIP的视觉识别精度。