当前位置: 首页 > news >正文

美团这个网站多少钱做的汕头seo公司

美团这个网站多少钱做的,汕头seo公司,商城网站建设 亚马逊,wordpress获取用户注册时间文章链接#xff1a;https://arxiv.org/pdf/2310.11448 git链接#xff1a; https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近#xff0c;一些动态视图合成方法在渲染质量方面表现出色。然而#xff0c;在渲染高分辨率图像… 文章链接https://arxiv.org/pdf/2310.11448 git链接 https://zju3dv.github.io/4k4d/ 本文旨在实现动态3D场景在4K分辨率下的高保真和实时视图合成。最近一些动态视图合成方法在渲染质量方面表现出色。然而在渲染高分辨率图像时它们的速度仍然有限。为解决这个问题本文提出了4K4D一种支持硬件光栅化的4D点云表示能够实现前所未有的渲染速度。本文的表示基于4D特征网格构建因此点云被自然地正则化并可以进行稳健优化。此外设计了一种新颖的混合外观模型显著提升了渲染质量同时保持了效率。此外开发了一种可微分的深度剥离算法以有效地从RGB视频中学习所提出的模型。实验表明在使用RTX 4090 GPU的情况下本文的表示在1080p分辨率下可以在DNA-Rendering数据集上以超过400 FPS的速度进行渲染在4K分辨率下可以在ENeRF-Outdoor数据集上以80 FPS的速度进行渲染比以往方法快30倍并实现了最先进的渲染质量。 方法 给定捕捉动态3D场景的多视角视频目标是重建目标场景并实时执行新视角合成。为此研究者们使用空间雕刻算法提取场景的粗点云并建立基于点云的神经场景表示该表示可以从输入视频中稳健地学习并支持硬件加速渲染。 下图2展示了所提模型的概述。首先描述如何基于点云和神经网络表示动态场景的几何和外观。然后开发了一种可微分深度剥离算法用于渲染表示该算法由硬件光栅化器支持从而显著提高了渲染速度。最后讨论如何在输入RGB视频上优化所提模型。 使用点云建模动态场景 4D embedding。给定目标场景的粗点云使用神经网络和特征网格来表示其动态几何和外观。具体而言本文的方法首先定义了六个特征平面θ、θ、θ、θ、θ和θ。为了在帧t中为任意点x分配一个特征向量f采用K-Planes的策略使用这六个平面来建模一个4D特征场 其中 是输入点 表示拼接运算符。更多实现细节请参考K-Planes。 几何模型。基于粗点云动态场景几何通过学习每个点的三个条目来表示位置 、半径 和密度 。使用这些点条目计算体渲染时与图像像素 u 对应的空间点 x 的体积密度。点的位置 被建模为一个可优化的向量。半径 r 和密度 通过将方程 (1) 中的特征向量 输入到 网络来预测。 外观模型。如上面图 2c 所示使用图像混合技术和球谐函数 (SH) 模型来构建混合外观模型其中图像混合技术表示离散的视角依赖外观 SH 模型表示连续的视角依赖外观 。对于帧 t 中的点 其在视角方向 下的颜色为 其中s 表示点 处的 系数。 离散的视角依赖外观 基于输入图像推理。具体而言对于一个点 首先将其投影到输入图像中以检索相应的 RGB 颜色 。然后为了混合输入的 RGB 颜色根据点坐标和输入图像计算相应的混合权重 。请注意混合权重与视角方向无关。接下来为了实现视角依赖效果根据视角方向选择 N′ 个最近的输入视角。最后颜色 计算为 。由于 N′ 个输入视角是通过最近邻检索获得的因此 cibr 在视角方向上不可避免地是离散的。为了实现连续的视角依赖效果附加了由 SH 模型表示的精细级别颜色 如上面图 2c 所示。 在实践中本文的方法通过将方程 (1) 中的点特征 传递到 网络来回归 系数 s。为了在图像混合模型 中预测混合权重 首先将点 投影到输入图像上以检索图像特征 然后将其与点特征 f 拼接并将其输入到另一个 网络中以预测混合权重。图像特征 使用 2D CNN 网络提取。 讨论。本文的外观模型是实现动态场景的低存储、高保真和实时视图合成的关键。有三种替代方法来表示动态外观但它们的表现无法与本文的模型相提并论。 在每个点上定义显式 SH 系数如在 3D 高斯分裂 中。当 SH 系数的维度较高且动态场景的点数量较大时该模型的大小可能太大无法在消费级 GPU 上训练。 基于 MLP 的 SH 模型。使用 MLP 来预测每个点的 SH 系数可以有效地减少模型大小。然而本文的实验发现基于 MLP 的 SH 模型难以渲染高质量图像。 连续视角依赖的图像混合模型如 ENeRF。使用图像混合模型表示外观比仅使用基于 MLP 的 SH 模型具有更好的渲染质量。然而ENeRF 中的网络将视角方向作为输入因此无法轻松预计算从而限制了推理期间的渲染速度。 与这三种方法相比本文的外观模型结合了离散图像混合模型 和连续 SH 模型 。图像混合模型 提升了渲染性能。此外由于其网络不将视角方向作为输入它支持预计算。SH 模型 实现了任何视角方向的视角依赖效果。在训练期间本文的模型使用网络表示场景外观因此其模型大小合理。在推理期间预计算网络输出以实现实时渲染。 可微分深度剥离 研究者们提出的动态场景表示可以使用深度剥离算法渲染成图像。得益于点云表示能够利用硬件光栅化器显著加速深度剥离过程。此外使这一渲染过程可微分也很容易从而能够从输入的 RGB 视频中学习本文的模型。 研究者们开发了一个自定义着色器来实现包含 K 次渲染通道的深度剥离算法。考虑一个特定的图像像素 u。在第一次通道中本文的方法首先使用硬件光栅化器将点云渲染到图像上为像素 u 分配最近的点 。记点 的深度为 。随后在第 k 次渲染通道中所有深度值 小于上一通道记录深度 的点都被丢弃从而得到像素 u 的第 k 近的点。丢弃较近的点在自定义着色器中实现因此它仍然支持硬件光栅化。在 K 次渲染通道之后像素 u 有一组排序的点 。 基于点 使用体渲染合成像素 u 的颜色。像素 u 的点 的密度是基于投影点和像素 u 在2D图像上的距离定义的。 其中 是摄像机投影函数。 和 r 分别是点 的密度和半径。在训练过程中使用 PyTorch实现投影函数因此方程 (3) 自然是可微的。在推理过程中利用硬件光栅化过程高效地获得距离 这通过 OpenGL 实现。 记点 的密度为 。像素 u 的体渲染颜色公式如下 其中 是点 的颜色如方程 (2) 所述。 训练 给定渲染的像素颜色 将其与真实像素颜色 进行比较以端到端的方式使用以下损失函数来优化模型 其中 是图像像素的集合。除了均方误差损失 外还应用感知损失 。 其中 是感知函数一个 VGG16 网络I 和 分别是渲染和真实图像。感知损失计算从 VGG 模型提取的图像特征之间的差异。实验中表明它有效地提高了渲染图像的感知质量。 为了规范本文提出的表示优化过程还额外应用mask监督到目标场景的动态区域。仅渲染动态区域的点云以获得它们的mask其中像素值由以下公式得到 mask损失定义如下 其中表示渲染mask的像素集合而 是2D动态区域的地面真实mask。这有效地通过将其限制在视觉外壳中规范了动态区域几何优化的过程。 最终的损失函数定义如下 其中 和 是控制对应损失权重的超参数。 推理 训练完成后采用几种加速技术来提升模型的渲染速度。首先在推理之前预先计算点位置 p、半径 r、密度 、SH 系数 s 和颜色混合权重这些数据存储在主内存中。在渲染过程中这些属性被异步地流式传输到显卡上通过重叠光栅化和内存复制来实现最优的渲染速度。应用这一技术后运行时计算仅包括深度剥离评估和球谐函数评估 (Eq.(2))。其次将模型从32位浮点数转换为16位以实现高效的内存访问这提高了帧率约20并且经验证没有可见的性能损失如表6所示。第三不可微分深度剥离算法的渲染通道数 K 从15减少到12同样提高了20 FPS 的速度而视觉质量无变化。 实现细节 优化 4K4D 使用 PyTorch 框架进行训练。使用 Adam 优化器学习率为 5e−3通常在序列长度为 200 帧的情况下模型会在约 800k 次迭代后收敛这在单个 RTX 4090 GPU 上大约需要 24 小时。具体而言点位置的学习率设置为正则化损失权重 λ和λ 设置为 1e−3。训练过程中不可微分深度剥离的通道数 K 设置为 15最近输入视图的数量 N′ 设置为 4。本文的方法的渲染速度是基于 RTX 3090 GPU 报告的除非另有说明。 点云初始化 利用现有的多视角重建方法来初始化点云。对于动态区域使用分割方法 在输入图像中获取它们的mask并利用空间雕刻算法提取它们的粗略几何信息。对于静态背景区域利用前景mask沿所有帧计算背景像素的mask加权平均生成不包含前景内容的背景图像。然后在这些图像上训练一个 Instant-NGP模型从中获取初始点云。初始化后动态区域每帧通常包含约 250k 个点静态背景区域通常包含约 300k 个点。 实验 数据集和评估指标 在多个广泛使用的多视角数据集上训练和评估本文的方法 4K4D包括 DNA-Rendering、ENeRF-Outdoor、NHR和 Neural3DV。 DNA-Rendering: 这个数据集使用 4K 和 2K 相机记录了动态人类和物体的 10 秒视频片段帧率为 15 FPS采集了 60 个视角。由于录制了复杂的服装和快速移动的人物这个数据集非常具有挑战性。在 DNA-Rendering 的 4 个序列上进行实验其中将 90% 的视角作为训练集其余作为评估集。 ENeRF-Outdoor: 这个数据集在室外环境中使用 1080p 相机以 30FPS 记录了多个动态人物和物体。选择了三个包含 6 个不同演员每个序列选择了 2 个演员的 100 帧序列来评估本文的方法 4K4D。这个数据集对于动态视角合成具有挑战性因为同一个片段中不仅有多个移动的人物和物体而且由于人物的阴影背景也是动态的。 遵循 Im4D 和 NeuralBody 的做法在 DNA-Rendering 和 NHR 数据集上评估动态区域的指标可以通过预定义人物的 3D 边界框并将其投影到图像上来获得。对于 ENeRF-Outdoor联合训练前景的动态几何和外观以及背景的动态外观以获得整体图像的渲染结果。所有图像在评估时都会按比例调整大小如果原始分辨率超过 2K则缩放比例为 0.375。在实验中DNA-Rendering 的渲染图像大小为 1024×1224和 1125×1536ENeRF-Outdoor 的分辨率为 960×540。Neural3DV 视频和 NHR 的分辨率分别为 1352×1224 和 512×612和 384×512。 对比实验 对比结果 在 DNA-Rendering数据集上的定性和定量比较如下图5和表1所示。 从表 1 可以明显看出本文的方法 4K4D 的渲染速度比当前最先进的实时动态视角合成方法ENeRF快30倍并且在渲染质量上表现更优秀。即使与并行工作相比本文的方法 4K4D 仍然实现了 13 倍的加速并且能够产生一致性更高质量的图像。如图 5 所示KPlanes无法恢复高度详细的 4D 动态场景的外观和几何特征。其他基于图像的方法 能够产生高质量的外观效果。然而它们往往在遮挡和边缘处产生模糊的结果导致视觉质量的降低最多能保持交互式帧率。相反本文的方法 4K4D 可以以超过 200 FPS 的速度生成更高保真度的渲染结果。图 3 和表 2 提供了在 ENeRF-Outdoor数据集上的定性和定量结果。即使在具有多个演员和动态背景的挑战性 ENeRF-Outdoor 数据集上本文的方法 4K4D 仍然能够取得显著更好的结果同时以超过 140 FPS 的速度进行渲染。ENeRF在这个具有挑战性的数据集上产生模糊的结果而 IBRNet的渲染结果在图像边缘处含有黑色伪影如图 3 所示。K-Planse在重建动态人物和变化背景区域上失败。 消融研究 在 DNA-Rendering数据集的 150 帧序列 0013 01 上进行了消融研究。定性和定量结果如下图6和表4至表7所示。 4D embedding消融研究 w/o f 变体移除了提出的 4D embedding模块并将其替换为每帧和每点可优化的位置、半径、密度和比例。如上面图 6 和表 4 所示w/o f 变体在没有 4D embedding模块 的情况下产生模糊和噪声的几何效果从而导致渲染质量的下降。 混合外观模型消融研究 w/o 变体移除了外观公式 Eq. (2) 中的 这不仅导致恢复的外观细节减少还显著阻碍了几何质量。增加 SH 系数的额外度数并未导致显著的性能变化PSNR 30.202 对比 30.328。相比之下本文提出的方法能够以更好的细节产生高保真度的渲染效果。 损失函数消融研究 如表 4 所示移除 项不仅降低了感知质量LPIPS 分数还导致其他性能指标的降低。对于高度动态的 DNA-Rendering 数据集遮罩损失 Lmsk 有助于规范动态几何的优化过程。 存储分析 对于 150 帧序列 0013 01 场景本文的方法 4K4D 的存储分析列在表 5 中。由于其显式表示点位置 p 占据了模型尺寸的大部分。本文方法的最终存储成本每帧少于 2 MB包括源视频。DNA-Rendering的输入图像以 JPEG 格式提供。使用 FFmpeg 的 HEVC 编码器将所有输入图像的帧编码为视频编码质量因子设置为 25。编码后观察到 LPIPS 没有变化0.040SSIM 没有损失0.982PSNR 只降低了 0.42%31.990 对比 31.855表明方法 4K4D 对于输入图像的视频编码具有鲁棒性。对于以视频形式编码的输入图像基于图像的渲染的存储开销每帧仅为 0.419 MB渲染质量几乎没有变化。 作者预计算了点云上的物理属性以实现实时渲染每帧大约需要 2 秒。尽管预计算的缓存尺寸较大0013 01 的一帧为 200 MB但这些预计算的缓存仅驻留在主存储器中并没有显式存储在磁盘上这对现代个人电脑来说是可行的。这使得表示形式成为一种压缩形式磁盘文件大小较小每帧 2 MB但所包含的信息非常丰富每帧 200 MB。 渲染速度分析 本文引入了多种优化技术来加速方法 4K4D 的渲染速度这些技术仅由研究者们提出的混合几何和外观表示方法实现。在上面表6中分析了这些提议技术在 DNA-Rendering 数据集的 150 帧序列 0013 01 上的有效性和质量影响。 计算的有效性 为了实现实时渲染预计算并缓存了所有点的位置 p、半径 r、密度 和 SH 系数 s并存储在主存储器中。由于研究者们将外观表示分割为常数项 和视角相关项 还可以预计算并缓存所有源图像的每帧权重 w 和颜色 。对于 DNA-Rendering数据集的 150 帧 60 视角场景的 0013 01这些缓存每帧占据大约 200MB 主存储器。本文呢方法所实现的预计算实现了 10 倍的速度提升Ours vs. “w/o Cache”。 可微深度剥离 本文还与传统的基于 CUDA 的可微分点云渲染技术PyTorch3D 提供的进行比较以验证提出的可微分深度剥离算法的有效性。本文提出的可微分深度剥离算法和 PyTorch3D的实现都使用了与 Eq. (4) 相同的体积渲染方程。如表 6 所示本文的方法比基于 CUDA 的方法快了超过 7 倍。 其他加速技术 “w/o fp16” 变体使用原始的 32 位浮点数进行计算。 “w/o K 12” 变体在深度剥离算法中使用了 15 个渲染通道与训练时相同。使用 16 位浮点数和 12 个渲染通道都可以实现 20FPS 的加速。 不同GPU和分辨率上的渲染速度 本文还报告了在不同硬件RTX 3060、3090 和 4090以及不同分辨率720p、1080p 和 4K2160p上的渲染速度见表 7。这里报告的渲染速度包含了交互式 GUI 的开销“w/ GUI”因此略低于报告的速度。4K4D 即使在使用普通硬件渲染 4K2160p图像时也能实现实时渲染如表中所示。 结论与讨论 本文提出了一种基于神经点云的表示方法称为4K4D用于实时渲染4K分辨率的动态3D场景。在4D特征网格上构建了4K4D以自然地规范化点并开发了一种新颖的混合外观模型用于高质量渲染。此外本文开发了一种可微分深度剥离算法利用硬件光栅化流水线有效优化和高效渲染所提出的模型。在实验中展示了4K4D不仅实现了最先进的渲染质量而且在渲染速度上表现出了超过30倍的提升在RTX 3090上1080p分辨率超过200FPS。 然而本文的方法仍然存在一些局限性。4K4D无法生成跨帧的点对应关系这对于某些下游任务至关重要。此外4K4D的存储成本随视频帧数线性增加因此在建模长体积视频时会面临困难。如何建模点对应关系和减少长视频的存储成本可能是未来研究中的两个有趣问题。 参考文献 [1] 4K4D: Real-Time 4D View Synthesis at 4K Resolution
http://www.dnsts.com.cn/news/225206.html

相关文章:

  • 网站关键词优化排名推荐网站网页链接
  • 专业营销软件网站建设ui设计培训班哪家好
  • 网站制作的论文wordpress小工具点
  • 网站备案 拍照如何做网站主页
  • 深圳网站建设制作订做云南哪有网站建设报价的
  • 免费送网站wordpress 设置邮箱设置
  • 网站搭建服务合同个人怎么建设网站
  • 长春网站优化咨询做网站要用到什么
  • 临沂建站公司营销型网站的建设起步
  • 网站推广临沂大连牛人网络推广有限公司
  • 视频网站砸钱做生态团员信息查询系统入口
  • 工业设计网站有那些网站建设相关职业岗位
  • 个人网站的设计的现状设计公司注册需要什么条件
  • 好的网页网站设计做网站产品搜索展示实现
  • 建站网站插件2023重大新闻事件10条
  • 军事网站模板下载如何在家做电商
  • 网站访问慢原因在线设计软件免费版
  • 园州网站建设大气的化妆品网站名
  • 网站建设教程步骤wordpress编辑器前端
  • 泰和县网站免费建站wordpress别名 文章id
  • 网站管理员是干什么的网站设计风
  • 网站 数据库 sql 导入数据库文件wordpress 媒体库
  • 广州做网站海珠信科赣州网站建设江西网站建设
  • 天津网站吗qq炫舞做浴缸的网站
  • 罗湖网站制作平果信息网
  • 企业网站seo案例分析外贸公司网站案例
  • 网页设计与制作建立站点实验报告域名注册官方网站
  • 网站有时打不开设计封面
  • 有了网站源码 怎么建设网站dw网站模板
  • 帝国cms灵动标签做网站地图微信朋友圈营销方案