建设淘宝网站需要多少钱,做100个网站挂广告联盟,贵阳企业网站排名优化,网站中英文版怎么做CLIP 概述1. 训练与推理2. 最终效果与局限性3.后续应用3.1 DALL-E3.2 ActionCLIP3.3 CLIP-Event 概述
CLIP#xff1a;contrastive language-image pretraining 利用文本的监督信号训练一个迁移能力特别强的视觉模型 传统的视觉模型#xff0c;人工标注图像#xff0c;那么… CLIP 概述1. 训练与推理2. 最终效果与局限性3.后续应用3.1 DALL-E3.2 ActionCLIP3.3 CLIP-Event 概述
CLIPcontrastive language-image pretraining 利用文本的监督信号训练一个迁移能力特别强的视觉模型 传统的视觉模型人工标注图像那么模型只能识别标注数据迁移能力弱
1. 训练与推理
训练
数据 图像图像文本作为标签互联网数据已经标好了
模型
Text-encoder重点不在训练它直接transformer拿来用已经海量文本训练好了Image-encoder重点在于训练它希望image-encoder能够学到图像的真实含义4亿对文本-图像不是标注的直接爬取的
训练方法 对比学习计算image-text相似度正样本相似度高负样本相似度低
推理 图搜文任务为例 图像模型得到向量候选文本模型得到向量计算相似度挑选出最终文本 文本的描述质量也会影响效果比如细粒度比如某些具体场景的描述
训练策略补充说明 以对比损失image-text的相似度来进行训练 另一种方式image预测具体的token效果要差
2. 最终效果与局限性
CLIP VS Restnet50
CLIP 在特别具体或者非日常场景的表现一般比如 minst 数据集比如稀有花的数据集Resnet 不是最强模型VIT 模型要比 Resnet50 更强论文中 clip 主要是跟 resnet50 来比如果要达到 VIT 的效果可能需要1000倍的数据量目前的参数都是根据 Imagenet 来的可能泛化也受限于 Imagenet 数据集因为调参成本太高
3.后续应用
3.1 DALL-E
GAN思想的网络
生成器VQGAN根据文本生成图像 1维护一个码本这个码本含有大量特征 2生成过程就是判断一张图片的每个像素点应该生成的特征跟码本里面的哪种特征更像 3同时还要约束新生成像素点也要基于已经生成的判别器CLIP判断根据文本生成的图像与文本之间的相似度是不是高
形象化的理解 DALL-E 1类GPT化输入文本图像可以是一个初始的图像也可以是噪音图像然后希望生成与文本描述相同的图像 2用到三种注意力text、image、text-image 3官网描述的 text 和 image 的 特征 / token 数量 其中文本是 256 token字典大小是 16384 其中图片是 1024 token字典码本大小是 8192
3.2 ActionCLIP
ActionCLIPA New Paradigm for Video Action Recognition 识别视频中的行为
3.3 CLIP-Event
CLIP-EventConnecting texts and images with event structures 训练抽取文本三元组。who do what 推理就可以推理出图片中的每个人物在干嘛