网站模版制作,jsp网站怎么做邮箱验证码,北京广告设计招聘,wordpress不用帐号此内容是论文总结#xff0c;重点看思路#xff01;#xff01; 文章概述
本文提出了一种快速从文本生成3D资产的新方法#xff0c;通过结合3D高斯点表示、3D扩散模型和2D扩散模型的优势#xff0c;实现了高效生成。该方法利用3D扩散模型生成初始几何#xff0c;通过噪声…此内容是论文总结重点看思路 文章概述
本文提出了一种快速从文本生成3D资产的新方法通过结合3D高斯点表示、3D扩散模型和2D扩散模型的优势实现了高效生成。该方法利用3D扩散模型生成初始几何通过噪声点扩展和颜色扰动丰富细节并使用2D扩散模型优化生成质量。相比现有方法它不仅生成速度快单GPU训练仅需15分钟且生成资产具有更高的几何一致性和细节质量同时支持实时渲染为文本生成3D技术提供了更高效的解决方案。 方法特点与创新 结合2D和3D扩散模型通过3D扩散模型提供几何一致性2D扩散模型提升细节质量。 高效表示采用3D高斯点表示具有简单结构和快速渲染能力。 高效优化通过SDS损失实现快速收敛仅需少量训练时间即可生成高质量的3D资产。 增强步骤引入噪声点扩展和颜色扰动显著提升初始点云的细节。
主要方法
GaussianDreamer通过结合3D扩散模型和2D扩散模型的优势利用3D高斯点表示实现从文本到3D的高效生成。具体方法包括两个阶段初始化和优化。
1. 初始化Initialization with 3D Diffusion Model Priors
初始化阶段的目标是生成初始的3D高斯点云作为后续优化的基础。其过程如下
1.1 使用3D扩散模型生成粗略几何 根据输入文本提示使用3D扩散模型如Shap-E或Point-E生成粗糙的3D资产。 Shap-E基于隐式表示如SDF生成纹理化的三角网格。 Point-E直接生成稀疏点云。 将生成的3D资产如三角网格转换为点云包括每个点的位置和颜色。
1.2 噪声点扩展Noisy Point Growing 目的增强点云密度以捕捉更多细节。 过程 计算原始点云的包围盒。 在包围盒中随机生成额外的点云。 使用KDTree算法筛选与原始点云位置相近的点。 合并新生成的点与原始点云。
1.3 颜色扰动Color Perturbation 目的增强点云的视觉表现力。 过程对新增点的颜色进行扰动使其颜色接近原始点并随机加入轻微变化。
1.4 初始化3D高斯点3D Gaussian Initialization 根据增强后的点云初始化3D高斯点 位置μ直接取点云位置。 颜色c取点云颜色。 透明度α统一初始化为0.1。 协方差Σ计算最近两点之间的距离以设置协方差。 2. 优化Optimization with the 2D Diffusion Model
优化阶段旨在通过2D扩散模型进一步优化3D高斯点的几何细节和外观质量。其过程如下
2.1 渲染图像 利用3D高斯点的渲染方法3D Gaussian Splatting将点云渲染为2D图像。 渲染方法通过光线投射累积高斯点的颜色和透明度生成每个像素的颜色。
2.2 使用SDS损失优化 SDSScore Distillation Sampling损失 利用预训练的2D扩散模型计算渲染图像与扩散模型生成的目标图像之间的噪声差异。 根据差异计算梯度优化高斯点的参数位置、颜色、协方差和透明度。 更新过程 每次迭代使用2D扩散模型生成目标图像并通过SDS损失更新3D高斯点。 3. 渲染与实时性能 优化后的3D高斯点无需转换为网格结构直接通过高斯点渲染实现实时可视化。 生成过程在单块GPU上仅需15分钟显著提升了效率。
GaussianDreamer 框架的整体流程 1. 初始化阶段Initialization with 3D Diffusion Model Priors
1.1 文本到3D点云生成 输入文本提示如 A fox。 模型 使用 3D 扩散模型例如 Text-to-3D 或 Text-to-Motion 模型。 根据文本生成初始点云点云包含点的位置和颜色信息。
1.2 噪声点扩展与颜色扰动 目标提高点云的几何细节和视觉表现。 方法 噪声点扩展在点云包围盒中生成额外的点增加密度。 颜色扰动对新点的颜色进行随机扰动增强视觉细节。
1.3 3D高斯点初始化 将增强后的点云转换为 3D 高斯点 位置使用点云位置。 颜色使用扰动后的颜色。 透明度和协方差根据点云分布进行初始化。 2. 优化阶段Optimization with the 2D Diffusion Model
2.1 渲染2D图像
使用 3D 高斯点通过 3D Gaussian Splatting 渲染2D图像。
2.2 优化3D高斯点 利用 2D扩散模型 提高生成的细节和一致性。 具体方法 SDS损失Score Distillation Sampling 比较渲染图像与扩散模型生成图像的噪声差异。 根据差异计算梯度优化 3D 高斯点的参数如位置、颜色、透明度等。 3. 结果渲染Final 3D Gaussian Splatting 输出经过优化的 3D 高斯点直接渲染为高质量3D结果如狐狸的逼真3D模型。 时间成本 7秒生成初始点云。 15分钟完成所有优化生成最终的高质量3D模型。
噪声点扩展Noisy Point Growing和颜色扰动Color Perturbation 的过程 图中关键内容
左侧Before GrowPertb. 初始生成的点云Generated Point Clouds pm用橙色圆点表示。 点云分布稀疏难以捕捉精细的几何和表面特征。 黑色虚线框表示点云的包围盒BBox其大小由点云的边界决定。
右侧After GrowPertb. 添加了新的点云Growing Point Clouds pr用红色圆点表示。 新增点云均匀分布在包围盒内部增强了点云密度。 这些新增点的颜色经过扰动变得更加多样化提升了视觉效果。 GrowPertb. 过程
噪声点扩展Noisy Point Growing 目标在点云稀疏区域生成更多点提高几何细节。 方法 在包围盒BBox内随机采样点。 通过 KDTree 筛选与原始点云距离较近的点仅保留这些点以保持几何一致性。
颜色扰动Color Perturbation 目标增强新增点的视觉表现使其颜色接近原始点云但带有随机变化。 方法 对新增点赋予接近于邻近原始点颜色的值并加入随机扰动如随机加减一定范围的值。
GaussianDreamer 与其他方法DreamFusion、Magic3D、Fantasia3D 和 ProlificDreamer在文本到3D生成任务上的定性对比Qualitative Comparisons
1. 方法和时间比较
每种方法的名称和训练时间列在顶部 DreamFusion6小时在 TPUv4 上测量。 Magic3D5.3小时在 A100 上测量。 Fantasia3D6小时在 RTX 3090 上测量。 ProlificDreamer数小时具体时间未标注但显著更慢。 GaussianDreamerOurs15分钟在 RTX 3090 上测量。
结论GaussianDreamer 的训练时间明显少于其他方法仅需15分钟完成训练。 2. 文本提示及生成结果对比
每行展示了一组示例的文本提示和对应生成结果
示例 1一盘堆满巧克力饼干的盘子 DreamFusion、Magic3D 和 Fantasia3D 生成结果未完整表现“盘子”的部分巧克力饼干直接浮于空中或不在盘子上。 细节丰富度一般。 ProlificDreamer 饼干与盘子表现较好但颜色和细节较其他方法更加突出。 训练时间极长。 GaussianDreamer 生成的饼干和盘子细节丰富盘子纹理清晰且造型真实。 效果优于 DreamFusion 和 Magic3D接近 ProlificDreamer但训练时间显著减少。
示例 2带茅草屋顶的可爱乡村小屋 DreamFusion 小屋结构简单颜色平淡茅草屋顶缺乏细节。 Magic3D 和 Fantasia3D 小屋屋顶的茅草纹理略显模糊未充分体现细节。 ProlificDreamer 小屋整体更逼真细节表现良好但时间成本较高。 GaussianDreamer 生成的小屋结构完整屋顶茅草纹理清晰整体视觉表现最为丰富同时训练时间远低于 ProlificDreamer。
3. 总结 效率GaussianDreamer 训练时间仅为15分钟比其他方法显著更快。 效果 与 DreamFusion、Magic3D 和 Fantasia3D 相比GaussianDreamer 的生成细节更丰富物体更符合文本提示。 与 ProlificDreamer 相比GaussianDreamer 在生成质量上接近或略有优势但训练速度快了数倍。 适用性GaussianDreamer 的高效率和高质量表现使其更适合时间有限的实际应用场景。
GaussianDreamer 生成的多个样本 这张图通过展示多个生成样本证明了 GaussianDreamer 的以下能力 生成质量高结果具有丰富的细节和准确的几何结构。 风格灵活能够根据文本提示生成写实或风格化的3D模型。 几何一致性强不同视角下的模型保持一致性。
GaussianDreamer 与其他方法DreamFusion、DreamAvatar、DreamWaltz 和 AvatarVerse在生成特定角色模型如蜘蛛侠和星战风暴兵上的定性对比
这张图通过展示蜘蛛侠和风暴兵的生成结果证明了 GaussianDreamer 的以下优势 高效率在大幅减少训练时间的情况下生成质量不输甚至优于耗时更长的方法。 高质量生成在几何一致性、细节表现和多视角准确性上表现出色。 应用潜力其快速生成的能力和高质量模型非常适合角色建模等实际应用场景。
GaussianDreamer 在不同动作姿势下生成3D角色的效果 总结 关键能力 GaussianDreamer 能够结合 SMPL 提供的动作初始化生成具有指定动作的高质量角色。 模型不仅能够生成符合文本提示的动作还能细化角色的外观和服装细节。 潜在应用 角色建模、游戏动画和动态虚拟角色的快速生成。