模板网站自助建站,新乡谷雨网络公司做的网站怎么样,怎么做网站网页归档,青岛公司GhostReview:全球第一套AI绘画ckpt评测框架代码 - 知乎大家好#xff0c;我是_GhostInShell_#xff0c;是全球AI绘画模型网站Civitai的All Time Highest Rated (全球历史最高评价) 第二名的GhostMix的作者。在上一篇文章#xff0c;我主要探讨自己关于ckpt的发展方向的观点…GhostReview:全球第一套AI绘画ckpt评测框架代码 - 知乎大家好我是_GhostInShell_是全球AI绘画模型网站Civitai的All Time Highest Rated (全球历史最高评价) 第二名的GhostMix的作者。在上一篇文章我主要探讨自己关于ckpt的发展方向的观点简单来说即checkpoin…https://zhuanlan.zhihu.com/p/647150677
港中大和商汤提出HPS v2为文本生成图像模型提供更可靠的评价指标_AmusiCVer的博客-CSDN博客点击下方卡片关注“CVer”公众号AI/CV重磅干货第一时间送达点击进入—【扩散模型和Transformer】交流群TL;DR 本文提出了一个目前数据量最大的、涵盖面最广、反应人类对生成图像喜爱程度的数据集HPD v2 并基于该数据集提出了目前泛化性最强的“人类喜好评估模型”HPS v2。HPS v2可以类比为ChatGPT中的reward model可以用于图像生成模型的对...https://blog.csdn.net/amusi1994/article/details/131566719作者的思路我认为也是没问题和我看法基本一致生成式的sd不需要那么多定向的模型提供强泛化能力的基础模型只需要几个就可以而外挂的能力多可以通过lora、controlnet这样的工具去完成因此评估主sd模型确实需要有一套体系常规的一些指标确实很难衡量模型的生成能力目前最主要的图像生成的指标还是FID/IS/Clip score但是这些评价指标很多时候也无法充分反应图像的生成质量。
GhostReview评价指标将模型出图归为2个部分一个是系统性影响即模型影响另一个是个体影响即随机种子带来的影响评价模型的系统性风险。1.模型的兼容性画风Loraprompts等2.生成图片的画面质量3.模型的良图率。
1.模型出图质量和泛化性分析
1.1 美学评估
GitHub - christophschuhmann/improved-aesthetic-predictor: CLIPMLP Aesthetic Score PredictorCLIPMLP Aesthetic Score Predictor. Contribute to christophschuhmann/improved-aesthetic-predictor development by creating an account on GitHub.https://github.com/christophschuhmann/improved-aesthetic-predictor
laion-5B基于laion-aesthetics v1使用了17.6W条图片评分对1.5W条laion-logos图片评分对和25w条AVA数据作为美学评分通过美学得分的标准差来数值化衡量模型的良图率。
1.2 prompt兼容性
https://github.com/openai/CLIPhttps://github.com/openai/CLIP
主要衡量模型生成的图片能否正确反应prompt的输入采用clip中的clipscore。
所采用的Prompt方面GhostReview中采用了Civitai上面Image Reaction最多的25条非政治性非梗非色情或软色情的Prompts。为保证Prompts涵盖真实动漫和艺术的画风所以加了5条风格化的Prompts一共30条Prompts全部不含LoRA。每个ckpt在每一条Prompts生成32张图batch4,iter8。所以对于单个ckpt一共在第一个项目生成960张highres fix的图片。
2.风格兼容性分析
测试的方式是输入风格化相关的prompt让模型生成大量风格化的图片然后与现有的大量style图片进行对比得出画风兼容性数值结果通过vgg19提取生成图片和目标图片的feature map然后计算每一层的feature map的gram matrix计算具体的styleloss。
风格化的Prompts方面参考SDXL的风格去除现有ckpt无法直接实现的比如PaperCut最后选择9中不同的风格AnimeMangaPhotographicIsometricLow_Poly Line_Art3D_ModelPixel_ArtWatercolor。
3.对lora的兼容性分析
通过生成图片与目标图片进行styleloss的计算。
Prompts和LoRA的选择。由于每个ckpt用人物LoRA生成出来的人物都会与样图不太一致所以LoRA兼容性测试选取的是风格化的LoRA。选择标准是Civitai All Time Highest Rated的Top 16个风格化LoRA。采用的目标图片和Prompts皆为LoRA头图的图片和Prompts。这里多说点处理的细节1对于一张图里面有多个LoRA的会补全对应LoRA比如墨心的头图 2对于没有LoRA字段的Prompts默认添加0.8的LoRA权重进行生成比如3D rendering style的头图 3.对于头图使用错误版本的LoRA字段的更换成新版本的LoRA字段比如Gacha splash的头图4. 因为有些LoRA头图本身使用的大模型也是被测模型比如REV和majic realistic所以做了GhostLoRALoss_NoTM版本的分数计算这些模型时不考虑这些LoRA的分数。
也就说三部分第一部分用美学评估模型评估图片分数用clipscore评估prompt和输出图片之间的相关性第二部分用输入prompt生成的图片和已有的风格图片之间计算styleloss第三部分结合lora使用lora自带的图片和prompt输入prompt得到图片和lora图片之间计算styleloss这三个维度来评价模型。
4.代码
# 图片的美学分数
model CLIPModel.from_pretrained(laion/CLIP-VIT-L-14-laion2B-s32B-b82K)
clip_processor CLIPProcessor.from_pretrained(laion/CLIP-VIT-L-14-laion2B-s32B-b82k)rating_model load_model()
artifacts_model load_model()def predict(img):inputs clip_processor(img,)with torch.no_grad():vision_output vision_model()embedding preprocess(pooled_output)with torch.no_grad():rating rating_model(embedding)artifact artifacts_model(embedding)