您的位置:用让网 > 杂谈 > >正文

​一部iPhone实时渲染300平房间,精度达厘米级别,谷歌最新研究证明NeRF没死

摘要一部iPhone实时渲染300平房间,精度达厘米级别,谷歌最新研究证明NeRF没死 NeRF 已死? 3D 实时渲染又要进入新时代了!谷歌团队最新研究 SMERF 能够在手机、电脑上实时渲染大型 3D 场景。...

一部iPhone实时渲染300平房间,精度达厘米级别,谷歌最新研究证明NeRF没死

NeRF 已死?

3D 实时渲染又要进入新时代了!谷歌团队最新研究 SMERF 能够在手机、电脑上实时渲染大型 3D 场景。

3D 实时渲染大型场景,一台电脑,甚至一部手机就可以完成。

从家里的客厅到主卧,储物间,厨房,卫生间各个死角,都能逼真在电脑中完成渲染,如同拍摄实物视频一般。

而且,你还可以在一台 iPhone 上完成复杂场景渲染。

来自谷歌、谷歌 DeepMind 和图宾根大学的研究人员最近提出了一种全新技术 SMERF。

它可以在智能手机和笔记本电脑各种设备上实时渲染大型视图场景。

论文地址:https://arxiv.org/pdf/2312.07541.pdf

本质上讲,SMERF 是一种基于 NeRFs 的方法,依赖于内存效率更高的 MERF(Memory-Efficient Radiance Fields)。

01 NeRF 已死?

当前,辐射场(Radiance fields)已成为一种强大且易于优化的表示形式,用于重建和重新渲染逼真的真实 3D 场景。

与网格和点云等显式表示相反,辐射场通常存储为神经网络并使用体积射线行进进行渲染。

在给定足够大的计算预算的情况下,神经网络可以简明地表示复杂的几何形状和依赖于视图的效果。

作为体积表示,渲染图像所需的操作数量以像素数量而不是图元(例如三角形)的数量为单位,性能最佳的模型需要数千万次网络评估。

因此,辐射场的实时方法在质量、速度或表示大小方面做出了让步,并且这种表示是否可以与高斯泼溅(Gaussian Splatting )等替代方法竞争,仍然是一个悬而未决的问题。

最新研究中,作者提出了一种可扩展的方法,从而实现比以往更高保真度的实时大空间渲染。

02 SMERF 实时渲染,精度达厘米级别

SMERF 专门为学习大型 3D 表示所设计,比如房屋的渲染。

谷歌等研究人员结合一种分层模型划分的方案,其中空间的不同部分和学习参数由不同的 MERF 表示。

这不仅增加了模型容量,而且同时限制了计算和内存要求。因为类似这样大型的 3D 表示是无法用经典 NERF 进行实时渲染。

SMERF 中有 K=3 坐标空间分区和 P=4 延迟外观网络子分区的场景的坐标系

为了提升 SMERF 的渲染质量,研究团队还使用了一种「教师—学生」的蒸馏方法。

在这个方法中,已经训练好的高质量 Zip-Nerf 模型(教师),被用来训练一个新的 MERF 模型(学生)。

如下图,「教师监督」的整体流程。教师模型通过渲染颜色提供光度监督,并通过沿相机光线的体积权重提供几何监督。教师和学生都在同一组光线间隔上进行操作。

这种方法可以让研究人员将功能强大的 Zip-Nerf 模型的细节和图像质量,转移到更高效、更快的结构上。

这对智能手机和笔记本电脑等功能较弱的设备上的应用尤其有用。

03 实验评估

研究人员首先在 Zip-NeRF 引入的 4 大场景上评估了方法:柏林、阿拉米达、伦敦和纽约。

这些场景中的每一个都是使用 180° 鱼眼镜头拍摄的 1,000-2,000 张照片。为了与 3DGS 进行全面比较,研究人员将照片裁剪为 110°,并使用 COLMAP 重新估计相机参数。

表 1 所示的结果表明,对于适度的空间细分 K,最新方法的精度大大超过了 MERF 和 3DGS。

随着 K 的增加,模型的重建精度提高,并接近其 Zip-NeRF 老师的精度,在 K=5 时差距小于 0.1 PSNR 和 0.01 SSIM。

研究人员还发现这些定量的改进低估了重建的定性改进准确性,如图 5 所示。

在大型场景中,SMERF 方法一致地对薄几何体、高频纹理、镜面高光和实时基线达不到的远处内容进行建模。

同时,研究人员发现增加子模型分辨率自然会提高质量,特别是在高频纹理方面。

实际上,研究人员发现最新渲染方法与 Zip-NeRF 几乎没有区别,如图 8 所示。

此外,研究人员在室内和室外场景的 mip-NeRF 360 数据集上进一步评估了最新方法。

这些场景比 Zip-NeRF 数据集中的场景小得多,因此无需空间细分即可获得高质量结果。如表 2 所示,模型的 K=1 版本在图像质量方面优于该基准测试中的所有先前实时模型,渲染速度与 3DGS 相当。

图 6 和图 8 定性地说明了这种改进,研究人员提出的方法在表示高频几何和纹理方面要好得多,同时消除了分散注意力的漂浮物和雾。

04 网页即可传输逼真 3D 空间

一旦经过训练,SMERF 就可以在浏览器汇总实现完全 6 个自由度的导航,并在流行的智能手机和笔记本电脑上进行实时渲染。

人人都知,实时渲染的大型 3D 场景的能力对于各种应用非常重要,包括视频游戏、虚拟增强现实,以及专业设计和架构应用程序。

比如,谷歌沉浸式地图中,可以进行实时导航。

不过谷歌等团队提出的最新方法也有一定的局限性。虽然 SMERF 有出色的重建质量和存储效率,但存储成本高、加载时间长、训练工作量大。

不过,这项研究表明,与三维高斯拼接法相比,NeRFs 和类似的辐射场在未来仍具有优势。

标签:

推荐阅读