近年来,随着 VR 头戴设备、智能眼镜、3D 影院的发展,人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷,但因其制作过程需要专业的相机设备、复杂耗时的专家后处理,3D 内容的制作让普通玩家望而却步:

2010 年,卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制,制作团队投入了高达 1800 万美元,动用了 300 名专业工程师,耗时整整 60 周才完成[1]。

如此高昂的成本和复杂的人力投入,一直是 3D 内容生产的最大阻碍。尽管近年来自动化的“单目转双目”(Monocular-to-Stereo)技术有所发展,但效果往往不尽如人意,转换的结果往往要么产生错误的视差,要么无法处理复杂的镜面场景,且速度极慢:现有的研究工作转换一段 5 秒的视频,耗时15 分钟到 70 分钟不等

针对这一难题,快手可灵团队与香港科技大学(广州)陈颖聪教授团队(共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭)联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一高效立体视频转换模型,能够在极短的时间内(11 秒),将一段 5 秒的普通 2D 视频转换为高质量的 3D 立体视频,在所有定量指标上均超越了当前 SOTA 方法。



当解锁了 3D 视频的制作部分,接下来,你只需要购买一副大约价格 10 元人民币的红蓝眼镜,即可跟随 StereoPliot 一起,开启沉浸式视觉体验:

论文的作者,对单目转双目视频,从以往的研究方法到数据格式,由表及里地进行了深入分析:

传统困境:为何 "Depth-Warp-Inpaint" 走不通?



在 StereoPilot 之前的研究工作中,学术界和工业界主流的 2D 转 3D 方案通常采用“深度估计 - 重投影 - 补全”(Depth-Warp-Inpaint, DWI)的多阶段流水线 :首先估计输入视角(如 left-view)每个像素的深度,再依据深度和视差(disparity)的反比关系计算出视差进而重投影到目标视角(right-view),最后再对遮挡位置进行补全。虽然这种方法符合直觉,但在实际应用中却存在三大致命缺陷:

1. 误差累积(Error Propagation)

DWI 流程是串行的:先估计深度图,再根据深度图将像素 “重投影”(Warp)到另一只眼睛的视角,最后修补空洞。这导致了一个严重的问题:一步错,步步错。如果初始的深度估计不准确,后续的重投影步骤会直接放大这种错误,导致最终生成的画面出现严重的几何畸变和伪影 。

2. 深度歧义(Depth Ambiguity)

搞不定的 “镜中花”这是 DWI 方法面临的最棘手的物理难题。在现实世界中,镜子或玻璃等反光表面存在一种特殊的现象:镜子表面的物理深度与镜子里反射物体的成像深度是不同的。 然而,传统的深度估计算法在同一个像素点上只能预测一个深度值。这导致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面,导致 3D 观感极度违和。







基于以上的现象观察和论述,我们可以得到:在镜面反射、透明等一个位置具备多个光学深度的场景下,单目深度估计算法预测得出的单一深度值,将无法通过简单的反比几何关系导出视差从而进行正确的重投影(warp)操作,而作者提出的 StereoPilot 则很好处理了“镜中花”的场景,如下图所示:



3. 格式不一致(Format Inconsistency)与几何假设失效

目前的 DWI 方法通常假设:深度(Depth)与视差(Disparity)之间存在简单的反比关系。这种假设仅对平行摄像机(Parallel)配置有效。然而, 3D 电影影视工业中,为了获得更好的观影体验,通常使用的是汇聚摄像机(Converged/Toe-in)。 在汇聚模式下,上述简单的几何假设不再成立,强行使用 DWI 方法会导致视差计算错误,和需要还原的 3D 训练数据无法达成一致。

拨开迷雾:Converged(汇聚式) vs. Parallel(平行式)

为了彻底解决格式问题,我们必须先理清 3D 视频数据的两种主要格式,StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别:



下面两个例子形象展示了了两种 3D 数据格式的区别:



平行格式(Parallel)vs 汇聚格式(Converged)

由于先前的研究工作往往从未对这两种格式进行区分,或者只在单一格式上进行训练,不可避免的带来了一些不合理的对比,如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。

StereoPilot:统一、高效的端到端解决方案

为了攻克上述难题,快手可灵联合港科大(广州)团队提出了StereoPilot

UniStereo:首个大规模统一 3D 立体视频数据集

团队构建了UniStereo数据集,数据处理打标流程如下图所示,这是业界首个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分:



作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。

统一高效的模型结构



StereoPilot 的模型结构如上图所示,主要包含下面三个核心部分:

实验对比展示

定量指标对比

作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了全面的对比,如表格所示,StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法,在推理性能上,对比其他方法动辄十几分钟到一个多小时的推理时间,StereoPilot 的 11 秒的推理速度实现了压倒性的优势。



可视化对比

根据作者展示的可视化对比结果,相比其他的 SOTA 方法,StereoPilot 预测的结果具有更加准确的视差和更高的视觉质量。此外,如前文中分析,StereoPilot 可以处理复杂的镜面场景(如下图中的最后一列的样本),这是其他方法从原理上无法做到的事情。



消融分析

为了验证 StereoPilot 方法中的模块的有效性,作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。

首先,如下展示的动态效果所示,StereoPilot 可以在 Domain Switcher 的加持下,实现 parallel 和 converged 的两种 3D 格式的灵活转换。





除了实现灵活统一的 3D 视频转换外,作者进一步地进行定量和定性实验,验证统一地训练方式对模型泛化性能的影响,如下图表所示:





从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化性能与一致性。

结语

快手可灵团队和港科大广州联合提出的 StereoPilot,实现了快速高质量的端到端 2D 视频转 3D 视频,打破了 2D 转 3D 依赖昂贵人工或低效深度重投影的桎梏,为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能性。此外,团队首次阐明 parallel 和 converged 两种 3D 立体视频数据的格式,并首次构建了大规模统一 3D 立体视频数据集,澄清了该领域的训练、测评标准。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)