当前位置: 首页 > news >正文

网站主题风格用户服务管理系统

网站主题风格,用户服务管理系统,营销型企业网站系统模板下载,移动网站营销【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation 论文阅读笔记论文信息引言动机挑战 方法结果 关键发现相关工作1. 视觉语言基础模型2. 视觉通用模型 方法/模型视觉任务的统一说明训练数据构建网络结构 实验设… 【论文阅读笔记】StyleAvatar3D: Leveraging Image-Text Diffusion Models for High-Fidelity 3D Avatar Generation 论文阅读笔记论文信息引言动机挑战 方法结果 关键发现相关工作1. 视觉语言基础模型2. 视觉通用模型 方法/模型视觉任务的统一说明训练数据构建网络结构 实验设计关键点检测分割图像增强图像编辑复杂指令与简单指令多任务学习质量调整的重要性未知任务的泛化 训练代价总结 论文阅读笔记 用于将计算机视觉任务与人工指令相协调的统一通用框架这篇工作希望单一模型整合计算机视觉领域的任务。和Emu Edit的出发点一样都将多个视觉任务视为图像生成任务并同时处理尤其是图像编辑。和Emu一样使用质量调整作为提升模型性能的方法数据制造过程使用了很多离线的图像编辑方案如Paint by Example: Exemplar-based Image Editing with Diffusion Models制作目标替换数据LAMAResolution-robust Large Mask Inpainting with Fourier Convolutions制作目标删除和添加数据。此外还通过公开数据集扩充以及爬虫爬取真实数据LAION-Aesics-Predictor评估美学、LAION-600M图像上构建KNN-GIQAKNN-GIQA计算GIQA这两个评估标准可作为现有图像生成质量的补充评价标准Emu Edit和Instruct Diffusion的异同 相同点 视作多任务学习 不同点 两者涵盖的任务不同前者为不同任务使用不同的指令编码进行引导训练标签遵循于不同任务的标签后者手动设置了不同任务的编辑指令不同格式的输出都整合到了三通道的图像作为标签Emu Edit基于Emu更好的性能的diffusionInstructDiffusion额外进行了质量调整两者使用的数据集筛选标准不同前者制作的数据集主要通过P2P生成且更加精细化后者使用了不少公开数据集前者数据集大概1000万张后者大概100万张前者512分辨率没有给出具体训练时间后者分辨率256200epoch48个A100 GPU训练4天 论文信息 论文标题InstructDiffusion: A Generalist Modeling Interface for Vision Tasks作者微软亚洲研究院发表年份2023期刊/会议暂无codehttps://github.com/cientgu/InstructDiffusion项目主页https://gengzigang.github.io/instructdiffusion.github.io/ 引言 动机 生成式预训练 Transformer (GPT) 通过为各种应用提供一个单一的、连贯的框架成功地统一了多个 NLP 任务。 本文旨在计算机视觉领域实现类似的统一即同时处理多个计算机视觉任务。 挑战 计算机视觉任务的多样性 包含识别、检测、分割、生成等任务不同任务的标签也不一样 方法和技巧的多样性 视觉任务倾向于使用显著不同的方法和技巧处理不同任务如GAN和DPM概率扩散模型语言模型依靠Transformer可以解决大部分问题 连续输入和输出 计算机视觉任务的输入和输出通常是连续的如坐标或图像图像可以被看作符合一定分布的如果进行离散化会导致误差不想文本数据可以被解释为离散Token的组合 方法 利用DDPM提出了一种新的方法来解决这些挑战将所有计算机视觉任务视为图像生成特别是图像编辑任务【Visual Prompting via Image Inpainting和Images Speak in Images: A Generalist Painter for In-Context Visual Learning两篇文章是视作inpainting任务】 首先将不同的视觉任务通过文本描述为对应的图像编辑任务如Figure1所示分割可以解释为将对应的object像素转换为特定的颜色随后把输出格式概括为3通道RGB图像、二进制掩码和关键点三种并将mask和keypoint也编码到3通道RGB图像以适应DPM的输出最后使用后处理模块来提取常用的输出格式进行评估 训练阶段使用一组不同的任务来统一训练单个模型此外收集了一个新的图像编辑数据集 结果 InstructDiffusion 可以处理各种视觉任务包括理解任务例如分割和关键点检测和生成任务例如编辑和增强它甚至展示了处理看不见的任务的能力并在新的数据集上优于以前的方法。 关键发现 为每个任务训练单个模型相比多个任务的联合训练可以提高泛化能力同Emu Edit模型还在一定程度上展示了 AGI 的能力因为它可以处理训练阶段看不到的任务例如图像分类和分类在训练期间没有看到的数据集上的表现优于以前的方法 相关工作 【构建一个能够解决任何任意任务的通用模型一直是人工智能研究的长期愿望】 1. 视觉语言基础模型 利用文本和图像大型数据对 CLIP 和 ALIGN 使用对比损失进行训练 通过在跨模态共享嵌入空间中对齐图像和文本对显示出对下游任务令人印象深刻的泛化能力基于对比的方法缺乏生成语言的能力限制了在开放任务中的使用如Image caption、visual question answering 大型语言模型GPT、LLaMA、PaLM将视觉任务视作文本预测问题将视觉任务映射为语言语义 2. 视觉通用模型 多任务学习关键挑战在于任务输出的各种结构的多样性和复杂性 类语言的生成量化离散 从 NLP 领域的序列到序列模型中汲取灵感并通过下一个标记预测对一系列离散标记进行建模Pix2Seq v2通过量化前三个任务的连续图像坐标来统一目标检测、实例分割、关键点检测和图像字幕Unified IO使用矢量VQ-VAE进一步统一密集结构输出如图像、分割掩码和深度映射 图像组装生成 Painter将密集预测任务表述为掩模图像修复问题并在深度估计、语义分割、实例分割、关键点检测和图像恢复等视觉任务中展示了上下文能力PromptDiffusion利用上下文视觉学习与文本引导的扩散模型并集成了六种不同任务的学习 本文方法通过更有力的指令对齐显式的处理多种图像任务 方法/模型 通过利用去噪扩散概率模型 (DDPM)将所有计算机视觉任务视为具有灵活和交互式像素空间中的输出的人类直觉图像处理过程 视觉任务的统一说明 所有任务的统一建模界面称为指令图像编辑 训练集 x i : { c i , s i , t i } x^i:\{c^i,s^i,t^i\} xi:{ci,si,ti}分别编辑指令、原图像和目标图像类似于Instruct pix2pix 关键点检测 精确定位图像中的关键对象组件指令示例“Please use red to encircle the left shoulder of the man.“ 分割 识别输入图像中特定对象的区域指令示例“apply a blue semi-transparent mask to the rightmost dog while maintaining the remainder unaltered.“ 图像增强和图像编辑 去模糊、去噪和水印去除等图像增强固有地产生输出图像同样适用于图像编辑指令示例“Make the image much sharper” for 去模糊, “Please remoe the watermark on the image” for 去水印, and “add an apple in the woman’s hand” for 图像编辑 首先为每个任务手动编写 10 条指令。然后使用 GPT4 重写和扩展这些指令的多样性从而模仿用户输入系统。。在训练过程中随机选择一个指令 训练数据构建 采用广泛使用的公开可用数据集并根据指令模板构建地面实况目标图像InstructPix2Pix (IP2P)通过利用GPT3生成指令和Prompt2Prompt来创建输出图像开创了使用合成训练数据集。然而合成的源图像和目标图像表现出不同的质量和不可忽略的伪影大多数指令都集中在全局样式修改而不是局部更改上【Emu Edit则是精心设计了合成数据集的制造流程和筛选流程】。MagicBrush 引入了一个包含超过 10,000 个手动注释的三元组的数据集但与其他视觉任务相比它的大小是有限的。除了 IP2P [6]、GIER [63]、GQA [90] 和 MagicBrush [96] 等现有数据集外还提出了一种新的数据集称为野外图像编辑 (IEIW)其中包含 159,000 个图像编辑对涵盖广泛的语义实体和不同级别的语义粒度 对象删除。参考分割数据集PhraseCut来构建对象删除数据。PhraseCut 为相应区域提供参考短语的图像。将这些区域设置为掩码并使用 LAMA 对其进行修复将它们转换为教学修复数据集。交换输入和输出图像并将“删除树顶部的蓝色鸟”等指令反转为“在树的顶部添加蓝色鸟”以从添加组件的角度进一步补充数据对象替换。首先构建了一个图库数据库该数据库由基于这些语义感知区域的不同图像块组成。给定OpenImages或SA-1B的源图像我们随机选择一个语义区域作为查询补丁从上述构建的图库中检索其最近的邻居数据库。检索到的相似补丁被视为源图像的参考图像两者都被馈送到 PaintByExample 以生成目标图像。通过这种方式我们获得了源图像和修改后的目标图像。为了生成指令我们利用图像字幕工具例如 BLIP2以产生源字幕和目标字幕然后通过大型语言模型生成可能的指令。例如给定标题“正在运行的狗”和“带有黑白条纹的剪刀猫”可能的指令是“请将跑步狗更改为带有黑白条纹的剪刀猫”。Web 爬虫。收集了真实的用户请求以及来自网站的经验丰富的 Photoshop 专业人士提供的相应结果。为了确保数据的准确性和相关性我们利用关键字“Photoshop 请求”在 Google 中搜索积累一个包含超过 23,000 个数据三元组的大量数据集进一步改进对用户需求的理解并减少训练和推理之间的域差距。 利用图像质量评估工具来消除标准数据 LAION-Aesics-Predictor进行美学评分LAION-600M图像上构建KNN-GIQAKNN-GIQA模型来计算GIQA评分排除质量分数较低的以及源图像和目标图像质量分数差异过大的 网络结构 分为预训练适应、特定于任务的训练和指令调整三个阶段 预训练适应 finetineSD1.5以适应编辑指令以及对应的图像 特定任务的训练 遵循Instruct pix2pix进行训练但由于不同任务的数据量不同使用不同的权重进行训练 L E ( s i , c i , t i ) ∼ P ( x ) , ϵ ∼ N ( 0 , 1 ) , t [ ∥ ϵ − ϵ θ ( z t , t , s i , t i ) ∥ 2 2 ] L\mathbb{E}_{\left(s_i, c_i, t_i\right) \sim \mathcal{P}(x), \epsilon \sim \mathcal{N}(0,1), t}\left[\left\|\epsilon-\epsilon_\theta\left(z_t, t, s_i, t_i\right)\right\|_2^2\right] LE(si​,ci​,ti​)∼P(x),ϵ∼N(0,1),t​[∥ϵ−ϵθ​(zt​,t,si​,ti​)∥22​] 人工对齐 为提高编辑的质量遵循大型语言模型的指令调优的思想类似Emu Edit的质量调整过程具体来说生成一批数据人工筛选其中最好的1000张队预训练模型微调 实验设计 训练数据 - 三元组{指令、源图像、目标图像}包含多种任务关键点检测、语义分割、参考分割、图像增强包括去噪、去模糊和水印去除、图像编辑 - 关键点检测COCO、CrowdPose、MPII、AIC四个数据集训练过程中每个图像随机使用 1 到 5 个关键点随机颜色。指令通过填充关键点类和特定颜色类的模板生成的 - 分割COCO-Stuff作为语义分割训练gRefCOCO和 RefCOCO 作为参考分割训练数据集。利用LLM收集提示模板作为文本指令。如“在对象上放置颜色掩码”。训练过程中随机选择一个颜色进行“颜色”并将“对象”替换为语义分割中的相应类别名称或引用分割。目标图像使用其对应的颜色放置透明度为 0.5 的掩码 - 图像增强去模糊、去噪和水印去除。利用包含 2103 张图像和 REDS [50] 数据集的 GoPro其中包含 24,000 张图像用于去模糊SIDD 数据集由 320 张图像组成用于去噪CLWD 数据集包含 60,000 张图像用于水印去除。 - 图像编辑过滤的InstructPix2Pix、MagicBrush、GIER、GIER、GIER、生成的数据 关键点检测 后处理提取准确的姿势坐标信息即精确的水平和垂直坐标而不是简单地用不同的符号标记位置。采用了一个轻量级的 U-Net 结构该结构对输出图像进行后处理以生成多通道heatmap 结果没有打过专有模型但高于其他通才模型可能是由于数据量不够或者结合但是可以泛化检测出训练集以外的关键点 分割 后处理与关键点检测类似采用了一个轻量级的 U-Net 结构该结构对输出图像进行后处理以提取每个单独对象的二进制掩码 结果优于专有模型通过文本指令建立与每个语义类别相对应的颜色从而显着提高性能 图像增强 首先针对图像编辑任务训练的专业模型在应用于图像增强任务时往往表现出较差的泛化能力通才模型 Painter 在去噪任务中表现更好但在通过上下文学习无缝集成图像编辑任务时遇到了挑战模型在图像增强方面的性能受到 VAE 模型的限制该模型引入了信息丢失。所以ground truth使用的是VAE重建的原始图像 图像编辑 定量实验见Figure.5 复杂指令与简单指令 假设泛化能力是通过理解单个元素的特定含义而不是记忆整个指令来学习的技能。与之前简单地将自然语言视为任务指标的 Pix2seq 和 Unified-IO 等统一模型不同该方法为每个任务使用详细描述作为指令。详细指令可以实现更好的性能 多任务学习 多任务学习下与专有模型分别在未见过的数据集上测试泛化性能明显增强 多任务训练的编辑准确性高于单任务编辑 质量调整的重要性 符合Emu的描述不能训练太久也不能训练太少需要权衡。 未知任务的泛化 通过这种高度详细的指令跟随格式利用丰富的任务和不同的数据集来展示一定程度的人工智能 (AGI) 能力。我们验证了它处理不属于其训练库的任务的能力如人脸检测、分类甚至复杂的细粒度任务如人脸对齐。在检测和分类的背景下采用了类似于参考分割的提示通过识别标记区域的顶部、底部、左侧和右侧边界来导出边界框坐标。此外使用一个通用的提示结构来验证类标签发现能够泛化到动物的五点检测 训练代价 SD] v1.5作为初始化来利用文本到图像的生成先验。将输入图像分辨率预处理为256 × 256训练过程中学习率固定为1 × 10−4采用 0.9999 的 EMA 率来稳定训练使用 3072 的批量大小进行训练总共 200 个 epoch48 个 NVIDIA V100 GPU 上大约 4 天在人工对齐阶段使用 0.99 的 EMA 率来帮助模型快速适应指令调整数据集 总结 InstructDiffusion 将所有计算机视觉任务视为图像生成重点关注三种类型的输出格式3 通道 RGB 图像、二进制掩码和关键点。我们证明了我们的方法在单个任务中取得了良好的性能并且多个任务的联合训练增强了泛化能力。未来工作 1改进统一表示我们旨在探索替代编码方案和技术以更好地表示与各种计算机视觉任务相关的更多样化的输出范围。2研究自监督学习和无监督学习的作用为了增强 InstructDiffusion 的泛化能力我们将探索使用自我监督和无监督学习技术来利用大规模未标记数据进行模型训练和适应。
http://www.dnsts.com.cn/news/113246.html

相关文章:

  • 专做中医教学网站建个网站要花多少钱
  • 榆垡网站建设搬瓦工一键WordPress
  • 各大网站推荐wordpress邀请有奖
  • 如何用自己电脑做销售网站网页制作专业前台
  • php网站后台无法上传图片网站高级?O置
  • 网站备案 广东做介绍翻译英文网站
  • 深圳网站搜索html5 网站建设
  • 如何找到网站管理员西安网站开发费用
  • 网站开发工资多少东莞保安
  • 如何增加网站流量上海大 小企业网站制作
  • 企业宣传网站建设电子游艺网站开发
  • 网站开发开发优势做行业网站能赚钱吗
  • 建设银行广州招聘网站鄂尔多斯网站制作公司
  • 电子商务网站系统建设进度安排营销型网站制作培训
  • 嘉兴自助模板建站金华关键词优化平台
  • 网站跳出率多少算正常越秀做网站
  • 网站做字工具在线看国内永久免费crm
  • 泰安网站建设 九微米如何制作简单自己的网页
  • 做网站的成本网页设计就是做网站优化的吗
  • 自己做的网站怎么设置文件下载地图拍摄街景用什么设备拍的
  • 做企业网站要怎么设计方案谷歌推广开户
  • 文化传媒有限公司网站建设网络推广项目
  • 潍坊企业建站系统商标购买网商标
  • 建设机械网站深圳微信商城网站设计费用
  • 做网站还 淘宝网站建设需求分析报告功能
  • 网站排名标准以网红引流促业态提升
  • zencart网站网站建设中涉及到的编程语言
  • 漫画网站做任务给金币加强专业建设的思路和建议
  • 做网站商城的目的是什么义乌厂家直接免费外发手工活
  • 公司网站开发费用记入什么科止上海缔客网站建设公司