当前位置: 首页 > news >正文

网站建设应用技术个人网站能做淘宝客吗

网站建设应用技术,个人网站能做淘宝客吗,在手机上建网站,微信分销平台是什么意思标题#xff1a;《On-the-fly Reconstruction for Large-Scale Novel View Synthesis from Unposed Images》 项目#xff1a;https://repo-sam.inria.fr/nerphys/on-the-fly-nvs/ 文章目录 摘要一、引言二、相关工作 三、算法3.1 轻量的初始位姿估计3.2 采样高斯基元3.3 联合… 标题《On-the-fly Reconstruction for Large-Scale Novel View Synthesis from Unposed Images》 项目https://repo-sam.inria.fr/nerphys/on-the-fly-nvs/ 文章目录 摘要一、引言二、相关工作 三、算法3.1 轻量的初始位姿估计3.2 采样高斯基元3.3 联合位姿和高斯优化3.4 可扩展的增量高斯重建 四、实验新视图合成质量 摘要 辐射场方法如3D高斯喷溅3DGS能够从照片中轻松重建图像支持自由视角导航。然而使用运动结构和3DGS优化进行姿态估计在拍摄完成后仍需几分钟到几小时的计算时间。SLAM方法与3DGS结合虽然速度快但在处理宽基线相机和大型场景时存在困难。我们提出了一种即时方法可以在拍摄后立即生成相机姿态和训练好的3DGS模型。该方法适用于密集且宽基线的有序照片序列和大规模场景。为此我们首先引入了fast initial pose estimation利用学习到的特征和GPU友好的mini bundle adjustment。接着我们引入了高斯原语位置和形状的直接采样技术根据需要逐步生成原语显著加快了训练速度。这两个高效的步骤能够快速且稳健地联合优化姿态和高斯基元。我们的增量方法通过引入可扩展的辐射场构建逐步聚类3DGS 原语将其存储在锚点中并从GPU加载这些基元从而处理大规模场景。聚类后的原语会逐步合并确保在任何视角下都能保持3DGS所需的适当尺度。 一、引言 略 二、相关工作 略 三、算法 我们提出了一种on-the-fly的快速方法用于估计相机姿态并计算完整的辐射场该方法设计用于处理大型场景。我们的方法包含四个主要部分 1 一种快速但近似的初始姿态估计通过精心设计使GPU友好型的小束调整成为可能2 一种直接采样方法通过估计每个像素生成高斯的概率来确定高斯基元的位置和形状显著减少了对密度化的需要3 一种高效的姿态和3D几何结构3DGS联合优化方法得益于前两步这种方法改进了初始的姿态和辐射场版本4 一种在线可扩展的优化方法使用滑动的锚点集逐步在空间中聚类3DGS基元从而能够处理大规模场景。图2概述了这些步骤。 3.1 轻量的初始位姿估计 我们首先计算出近似的初始姿态这些姿态将在后续通过联合优化进一步改进因此我们的设计更侧重于速度而非灵活性。具体来说为了充分利用GPU我们首先使用有限数量的关键点减少GPU上的内存访问成本其次我们将问题建模为固定大小的问题以利用GPU核心的并行处理能力。因此初始姿态估计分为 三个阶段特征提取、引导bootstrapping和后续帧估计 。 特征提取 。针对每张输入图像应用了由Potje等人2024开发的快速特征关键点检测器和描述符每帧生成6144个关键点。 bootstrapping 。首先等待前 N i n i t N_{init} Ninit​个初始帧到达然后对每对这些帧实验中初始帧数为8进行exhaustive matching。通过最小化重投影误差从这些匹配中优化焦距、位姿和3D关键点的位置。按照标准做法我们采用Levenberg-Marquardt优化方法[Levenberg 1944Madsen et al. 2004Marquardt 1963]来实现这一过程。与其它方法[如Matsuki et al. 2024]所使用的全3D全局光照渲染SGD优化相比我们的mini bundle adjustment更加轻量且高效。 高效的 solvers 核心在于确保每个3D点都能从固定数量的图像中被捕捉。这样可以生成一个大小固定的稀疏雅可比矩阵J用于表示重建误差该矩阵易于构建并且能够在GPU上实现高效的求解方法。具体的计算了相机姿态 J c a m J_{cam} Jcam​和3D点位置 J x y z J_{xyz} Jxyz​关于重投影误差的雅可比矩阵类似于standard solvers矩阵J由 J c a m J_{cam} Jcam​和 J x y z J_{xyz} Jxyz​构建两者均为稀疏矩阵。由于我们固定了non-zero block的大小可以预先分配内存并以fixed-size的计算独立处理每个块从而利用GPU的批处理能力。这种简化的布局避免了使用像Ceres [Agarwal等2023]这样的常用于bundle adjustment灵活求解器。 后续帧的估计 。在每个新帧中我们将该帧的关键点与最后注册的 N N N个帧实验中设为6的关键点进行匹配。为了建立3D-2D对应关系我们利用已知的之前的相机姿态和三角测量技术估计每个过去帧中关键点的3D位置。如果这种估计失败我们将使用渲染的深度信息。接着我们利用这些3D-2D对应关系通过GPU并行RANSAC算法和最小束调整作为估计器来估计相机姿态和内点。完成初始化后我们使用所有内点运行20次最小束调整迭代以微调姿态。最后为每个三角化关键点创建一个三维高斯基元。尽管由于transitive matches一个关键点可以从多张图像中识别但我们仅将监督限制在最后 N N N帧注册的图像上以保持问题的固定大小。 为了确保方法在复杂场景如纯旋转、尺度漂移中仍能有效恢复当最后二十个摄像头之间的平均距离低于0.1/3时我们会重新执行bootstrapping。若投影误差小于1像素我们将通过与先前估计的姿态对齐更新初始帧的姿态参数。 3.2 采样高斯基元 为了避免密集化带来的开销和不足我们提出了一种针对高斯基元的直接采样方法。每一帧采样一组密集的3D高斯基元需满足两个条件 1覆盖之前未见过的区域或在场景的粗略重建部分添加更多细节 2避免在任何给定区域内放置超过实际需要的基元。采样方法步骤如图5所示。 现有的3DGS-SLAM方法 通常通过两种方式处理高斯初始化一种是将高斯分布均匀地分布在图像中[Sun等人2024a]另一种是将高斯分布放置在关键点上[Huang等人2024]。然而均匀分布的方法无法适应输入图像的特定特征而仅使用关键点则往往过于稀疏需要进一步密集化这会导致优化时间延长和原始元素数量增加。 在特定像素生成原始图元的两个标准1) 高斯基元应集中在不连续性的高频细节区域2高斯基元应位于每个不连续性的两侧以准确表示边缘见图3。 因此给定像素生成原始基元的概率基于局部空间梯度。使用高斯拉普拉斯算子LoG的范数 [Haralock和Shapiro 1991] 作为概率的代理为像素 ( x , y ) (x,y) (x,y)分配一个初始概率 p p p表示在该位置生成原始基元的可能性。 为了避免在已有足够原始图像表示边缘的区域放置多余的高斯基元我们从新帧的视角渲染了一个视图 I ~ \tilde{I} I~。接着我们计算了与等式1中相同的量但这次是针对渲染后的图像 I ~ \tilde{I} I~提供了一个像素级别的惩罚 P ~ \tilde{P} P~以减少在已重建区域放置新高斯分布的概率 在内容已重建的区域参数 P ~ \tilde{P} P~将与 P L P_L PL​相似将降低在已由渲染图像良好表示的区域中生成基本元素的概率。因此在像素(x,y)处添加高斯的最终概率为 高斯基元的深度 。使用Depth-Anything-2 来估计单目深度并使用Kerbl等[2024]描述的相同方法与三角化匹配对齐。然后采用以单目深度为中心的 standard correlation volume 方法来估计深度。这种引导匹配至关重要因为单目深度可能会出现显著误差。计算的具体细节见附录。 基元的尺寸参数。3DGS基元的形状尺度是根据与最近3D的三个近邻的平均距离来初始化的。然而这种方法容易在不连续区域周围产生过大的高斯分布并且对异常值非常敏感导致初始化结果与输入帧的匹配度较差见图6。 为了解决这一问题我们首先在图像空间中估算一个合适的尺度。根据等式(1)的概率我们计算了假设像素 ( x , y ) (x,y) (x,y)周围存在强度为 P L ( x , y ) P_L(x,y) PL​(x,y)的局部二维泊松过程时到最近邻的预期距离: 这一计算利用了惩罚项之前的概率 P L P_L PL​因为高惩罚意味着已经存在许多高斯分布。 接下来我们利用相机的焦距 f f f和像素的估计深度 z z z将像素空间转换到三维空间 s z s ′ f s \frac {zs}{f} sfzs′​。这种方法无需进行最近邻搜索就能提供合适的尺度因此非常高效。随后我们将 s s s值分配给三维高斯尺度向量 S S S的每个维度。 3.3 联合位姿和高斯优化 对于每幅新图现在获得了初始估计的pose以及高斯基元的position与size的直接采样结果。 对于每幅接收到的新图像仅当关键点的median displacement中位位移超过屏幕宽度3%时才注册该帧这些被注册的帧即为关键帧。这种做法确保仅使用具有显著视差的帧从而提升几何估计精度并避免冗余帧。 每幅新注册图像运行30次高斯泼溅优化迭代采用[Mallick等人2024年]提出的快速反向传播与稀疏-Adam优化器来提升迭代速度。 学习率按高斯分布分配衰减率根据每个高斯分布引入的时间点进行调整。相机位姿采用6D旋转表示法[Hempel等人2022]进行联合优化。位姿会接收来自高斯位置和旋转优化的梯度更新但不接收球谐函数的更新因为通过视角相关颜色信息传播梯度会降低位姿质量[Liu等人2023]。 为优先捕捉低频场景细节、加速优化过程并避免陷入局部极小值我们采用coarse-to-fine 的渐进策略[Huang等人2024Sun等人2024a]。具体每当新增图像时先以 2 l 2^l 2l倍降采样实验中 l l l3进行训练。随后每进行五次迭代就将 l l l值递减直至恢复图像原始尺寸。我们采用恰当的滤波技术[Yu等人2024]来确保多尺度训练的正确性。虽然不执行稠密化操作但如原始3D高斯泼溅(3DGS)方法所述我们实施了透明度筛选机制——剔除具有极低不透明度的图元 我们初始的姿态估计能避免在联合优化姿态和高斯分布时陷入局部极小值这使得相比基于SLAM的方法我们能处理更宽基线相机或视角之间的相对运动较大的场景。 3.4 可扩展的增量高斯重建 在图像处理过程中维护一组包含当前正在优化和渲染的基元的Active Gaussians。经过一段时间后早期放置和优化的图元在当前相机视角下可能显得非常微小甚至亚像素级尺寸对渲染图像的贡献微乎其微。这些基元会从GPU卸载至CPU内存以anchor形式存储。由此形成的场景表征是一组可按需重新加载至GPU的聚类集合。该聚类流程包含三个步骤1)检测创建锚点的时机 2)执行聚类与图元合并 3)采用滑动窗口进行增量式优化。 1.检测创建anchor的时机。我们将相机 i i i中基元的尺寸 S S S定义为 S / D S/D S/D其中 D D D表示基元中心到相机的距离 S S S为高斯分布的尺度。当处于序列中的相机 i i i时检查在相机 i − 1 i-1 i−1视角下是否有超过40%的Active Gaussians的尺寸 S τ m i n S\tau_{min} Sτmin​ τ m i n \tau_{min} τmin​1像素。若满足条件则触发更新以创建anchor并合并这些高斯。 2.聚类与基元合并。更新前的Active Gaussians被复制至新anchor中存储其位置信息、高斯基元集合、其优化状态以及用于优化的关键帧。 合并对远距离区域贡献较小的高斯分布以获得粗略的表示随机选取检测步骤中被判定为过于精细的第 1 k 1 \frac {1}{k1} k11​个基元然后采用Papantonakis等人[2024]的方法为每个选定基元寻找 k k k个最近邻并按照Kerbl等人[2024]采用的方案进行合并此处 k 3 k3 k3。其余所有基元均保持原状不变 3.滑动窗口增量优化。合并过程使我们获得场景的粗略表示该表示成为新的活跃高斯集。该集合将在下一次迭代中进行优化。后续聚类步骤将创建新的锚点而由于合并操作远处内容将逐渐变得粗糙。在采集路径的末端活跃高斯集被存储于最后一个锚点中。补充视频中展示了锚点的使用方式。 当我们构建完场景的完全表示不同尺度的表征通过anchor存储后就能在空间中自由导航。为了基于该表征实现新视角的渲染我们会选取距离相机当前位置最近的anchor并渲染其包含的高斯元素。当两个anchor与相机的距离相近时我们将对两者的高斯元素进行混合处理。假设相机视点下最近的两个anchor距离分别为 d 1 d₁ d1​和 d 2 d₂ d2​满足 d 1 ≤ d 2 d₁≤d₂ d1​≤d2​定义重叠参数 o ∈ ( 0 , 0.5 ) o∈(0,0.5) o∈(0,0.5)例如 o 0.1 o0.1 o0.1计算比率 r d 1 / d 2 rd₁/d₂ rd1​/d2​。若 r ≤ 1 − o r≤1−o r≤1−o则最近anchor的混合权重为1另一anchor权重为0否则将进行线性权重混合 四、实验 我们在3DGS代码库的基础上实现了我们的方法添加了一个基于Python的交互式查看器用于训练和优化后的在线可视化。源代码https://repo-sam.inria.fr/nerphys/on-the-fly-nvs/. 数据集。使用常用于SLAM方法评估的密集采集TUM数据集[Sturm等人2012]针对中等宽基线与较大尺度采集选用Static Hikes数据集[Meuleman等人2023]针对NVS宽基线采集测试MipNeRF360数据集[Barron等人2022]的部分场景针对大尺度场景评估改编自H3DGS[Kerbl等人2024]的SmallCity和Wayve场景仅使用前置摄像头。我们筛选了这些数据集中具有有序图像序列的场景——这是本方法的必要条件。此外我们还使用佳能EOS R6相机以每秒3帧的驾驶模式采集了大型数据集CityWalk。TUM数据集(fr1,fr2,fr3)平均图像数为2289帧MipNeRF360数据集(花园/柜台/盆景)为239帧StaticHikes数据集(森林1/森林2/大学2)为972帧。H3DGS数据集平均2285帧自采集的CityWalk场景达4055帧其空间跨度达1.1公里为当前最大。 配置。英特尔酷睿i9 14900K处理器、128GB内存和英伟达RTX 4090显卡的工作站上运行了所有测试与评估。若需采用不同配置例如当方法需要更多显存时我们会通过在每台设备上调用1000次CUDA光栅化程序来将耗时数据折算至基准配置。所有场景均采用同一组参数进行测试。 对比方法。我们与两类方法进行了比较。首先对比的是无需相机位姿输入的最先进方法SLAM/3DGS和无位姿3DGS解决方案Photo-SLAM[黄等人2024]、DROIDSplat[霍迈尔等人2024]、MonoGS[松木等人2024]以及最终入选的CF-3DGS[傅等人2024]进行了对比。 我们还提出了两个基准方法。首先标准3DGS即从官方github仓库发布的版本使用标准COLMAP参数在7K和30K次迭代中的表现报告的时间是所有COLMAP处理和3DGS优化的总时间。第二个基准方法采用了Taming 3DGS[Malick等人2024]这是目前最快的3DGS优化方法结合了最佳努力加速SfM姿态估计的方法使用GLOMAP [Pan等人2024]。具体来说我们运行了COLMAP特征提取器、顺序匹配器然后使用GLOMAP映射器来获取姿态和SfM点。这一基准方法可以视为当前最快的最佳实践是非增量的解决方案用于姿态估计和3DGS优化。由于TUM数据集的捕获更为密集我们在较少的图像上运行了不选择关键帧的方法Taming 3DGS、3DGS和COLMAP Free 3DGS。具体而言我们分别选择了fr1、fr2和fr3的每第3帧、第15帧和第10帧。这种方法使总帧数更接近我们注册的关键帧数量同时保留了测试集中的所有图像。请注意我们方法报告的时间包括了自动选择关键帧的时间。 DROID-Splat和CF-3DGS无法处理全分辨率图像。因此我们提供了一个单独的表格表2列出了这些方法在每个数据集上的最佳分辨率TUM数据集为446x336MipNeRF360和StaticHikes数据集为640像素。我们的方法需要更高分辨率的输入因为XFeat [Potje等2024]在1到2百万像素范围内表现最佳。为了进行比较我们在使用我们的方法处理图像之前将调整后的图像在两个维度上放大两倍。然后我们在适当降采样的图像上报告了指标。另一个问题是测试图像集的指定。不同的方法使用不同的方法因为在某些情况下并非所有图像都有估计的姿态因此即使对于相同的场景每个方法的测试集也往往不同。我们定义了一个单一的评估协议使用每第n张图像作为测试视图其中n对于MipNeRF360和StaticHikes是8和10根据其作者的建议而对于TUM是30因为帧之间的基线较小。这要求对每种方法进行特定的修改。 第二个比较针对的是大规模3D场景的方法。具体来说我们与H3DGS [Kerbl等人2024] 进行了对比。在此次对比中我们使用了SmallCity和Wayve数据集以及我们的CityWalk数据集中的前摄像头。还评估了测试视图的位姿估计质量按照标准做法使用COLMAP姿态作为“伪真实”值采用RMSE APE和RPE指标[Grupp2017] 新视图合成质量 表1和表2展示了SLAM方法按数据集类型划分的平均结果。指标有PSNR、SSIM和LPIPS以及平均时间即姿态估计和3DGS优化的总时间。GLOMAP姿态优化的平均时间分别为TUM图森大学00202MipNeRF360MipNeRF36000717StaticHikes静态徒步10026。对于TUM我们使用了图像子集进行CF-3DGS和SfM方法的测试因为这些方法不包含关键帧而其他方法则处理所有图像。此外基于SfM的方法需要在处理前获取整个数据集因为这些方法的映射器会重新排列图像这阻碍了实时反馈和在捕捉结束后立即获得重建。 图7和图8中展示了定性结果。DROID-Splat的视觉质量表现良好我们的方法虽然通常更清晰但保真度可能略低。SLAM方法在设计用于密集捕捉的场景中表现出色但随着相机基线变宽视觉质量可能会下降甚至导致方法失效。Taming 3DGS和标准3DGS的视觉质量更好适用于所有场景但由于之前提到的高计算开销它们不适合我们的即时重建需求。 在训练处理完所有视图后我们可以利用已识别的关键帧来微调3DGS和相机。为此我们逐一加载这些关键帧。对于每个关键帧通过随机选取其所有关键帧进一步优化相关相机和高斯分布的参数。由于仅执行3DGS优化这一过程足够快速因此可以重复多次以找到理想的开销与质量平衡。表3显示我们达到了Taming 3DGS7k的质量水平。然而要达到更高的质量则需要更复杂的解决方案我们将在第6节中讨论这一未来的工作方向。 大规模场景的结果与H3DGS对比。从表4可以看出使用SfM方法进行相机校准的额外成本随着场景规模的增大而显著增加。捕捉CityWalk场景耗时30分钟这比我们的方法处理该场景所需的时间25分钟要长而使用H3DGS少数能够处理如此大规模场景的方法之一在捕捉完成后需要22小时的处理时间。此外姿态估计的质量非常低导致路径中多个部分的新视角合成失败。 位姿估计质量。我们使用表5中的APE和RPE指标来评估姿态估计的质量。我们的方法在MipNeRF360数据集上表现良好但在TUM数据集上遇到了困难。这主要是因为该视频的拍摄质量较差许多帧模糊不清并且存在显著的滚动快门效应而我们没有对此进行专门处理导致了异常姿态的出现。SLAM方法通常针对此数据集进行了优化。此外我们还与基于Transformer的Spann3r方法进行了对比其姿态估计质量低于我们的方法原因是存在较大的姿态漂移。 表6详细列出了算法在Garden数据集上各步骤的运行时间。每个步骤都会针对每一个关键帧执行。对于每个输入帧都会进行特征检测和提取以判断是否应保留为关键帧。我们分别以40帧/秒、4帧/秒和9帧/秒的速度处理输入图像并将9%、86%和31%的图像分别作为TUM、MipNeRF360和StaticHikes的关键帧。 #pic_center 80%x80% d \sqrt{d} d ​ 1 8 \frac {1}{8} 81​ x ˉ \bar{x} xˉ D ^ \hat{D} D^ I ~ \tilde{I} I~ ϵ \epsilon ϵ ϕ \phi ϕ ∏ \prod ∏
http://www.dnsts.com.cn/news/70850.html

相关文章:

  • 哪些网站用jsp网站标题名字和备案名字
  • 网站集约化建设 要求本地搭建wordpress建站教程
  • 天圆地方建筑网站网站建设w亿玛酷1专注
  • 贵州网站开发哪家便宜微信公众好第三方网站怎么做
  • 网站设计开发文档模板网站设计优秀作品
  • 网站定制公司地址google seo教程
  • 做搜狗网站排名深圳团购网站设计多少钱
  • 公司网站二维码怎么做wordpress自动保存编辑器图片
  • 甘肃建设银行网站上海宣传片拍摄的公司
  • c2c网站的主要功能tp5企业网站开发视频
  • 大数据软件和网站开发那个就业好网页设计与制作用什么软件
  • 域名备案和网站备案有什么区别企业网站建设请示
  • 公司搭建网站服务做家政有什么网站做推广好
  • 网站建设协议需要注意的问题WordPress后台管理主题
  • 哪些网站是做包装的企业邮箱收费标准
  • vps主机可以做几个网站北京公司摇号政策
  • 网站后台内容编辑器下载合肥做机床的公司网站
  • 富民县住房和城乡规划建设局网站广州专业视频制作
  • 学网站开发在大学网站建设mng
  • wordpress 站点地址 wordpress地址株洲信息网
  • 网站拒绝了您的访问凤城市网站建设
  • 求个网站你懂我的意思吗怎么建好网站
  • 《电子商务网站开发与管理》域名解析后怎么建网站
  • 哈尔滨市延寿建设局网站网站子网页设计
  • 建一个快讯网站要多少钱手工制作灯笼视频教程
  • 作风建设 宣讲家网站最轻快的wordpress主題
  • 如何建网站的步骤邢台头条新闻最新
  • php网站中水印怎么做的可以设计房子布局的软件
  • 杭州做网站的网络公司有哪些荥阳网页设计
  • 怎样做卡盟网站株洲网站建设