港科大广州、快手可灵发布立体视频转换单步推理新方案

近年来，随着 VR 头戴设备、智能眼镜、3D 影院的发展，人们对于 3D 立体视频内容的需求不断增加。3D 电影带来的沉浸式体验着实令人着迷，但因其制作过程需要专业的相机设备、复杂耗时的专家后处理，3D 内容的制作让普通玩家望而却步：

2010 年，卡梅隆导演为了实现经典著作《泰坦尼克号》的 3D 版本重制，制作团队投入了高达 1800 万美元，动用了 300 名专业工程师，耗时整整 60 周才完成[1]。

如此高昂的成本和复杂的人力投入，一直是 3D 内容生产的最大阻碍。尽管近年来自动化的“单目转双目”（Monocular-to-Stereo）技术有所发展，但效果往往不尽如人意，转换的结果往往要么产生错误的视差，要么无法处理复杂的镜面场景，且速度极慢：现有的研究工作转换一段 5 秒的视频，耗时15 分钟到 70 分钟不等。

针对这一难题，快手可灵团队与香港科技大学（广州）陈颖聪教授团队（共同一作博士生沈贵宝、红鸟硕士生杜壹华、博士生葛汶杭）联合提出了一种全新的解决方案 ——StereoPilot。这是一种基于生成式先验的统一高效立体视频转换模型，能够在极短的时间内（11 秒），将一段 5 秒的普通 2D 视频转换为高质量的 3D 立体视频，在所有定量指标上均超越了当前 SOTA 方法。

论文链接：https://arxiv.org/abs/2512.16915 项目主页：https://hit-perfect.github.io/StereoPilot/ 代码链接：https://github.com/KlingTeam/StereoPilot/

当解锁了 3D 视频的制作部分，接下来，你只需要购买一副大约价格 10 元人民币的红蓝眼镜，即可跟随 StereoPliot 一起，开启沉浸式视觉体验：

论文的作者，对单目转双目视频，从以往的研究方法到数据格式，由表及里地进行了深入分析：

传统困境：为何 "Depth-Warp-Inpaint" 走不通？

在 StereoPilot 之前的研究工作中，学术界和工业界主流的 2D 转 3D 方案通常采用“深度估计 - 重投影 - 补全”（Depth-Warp-Inpaint, DWI）的多阶段流水线：首先估计输入视角（如 left-view）每个像素的深度，再依据深度和视差（disparity）的反比关系计算出视差进而重投影到目标视角（right-view），最后再对遮挡位置进行补全。虽然这种方法符合直觉，但在实际应用中却存在三大致命缺陷：

1. 误差累积（Error Propagation）

DWI 流程是串行的：先估计深度图，再根据深度图将像素 “重投影”（Warp）到另一只眼睛的视角，最后修补空洞。这导致了一个严重的问题：一步错，步步错。如果初始的深度估计不准确，后续的重投影步骤会直接放大这种错误，导致最终生成的画面出现严重的几何畸变和伪影。

2. 深度歧义（Depth Ambiguity）

搞不定的 “镜中花”这是 DWI 方法面临的最棘手的物理难题。在现实世界中，镜子或玻璃等反光表面存在一种特殊的现象：镜子表面的物理深度与镜子里反射物体的成像深度是不同的。然而，传统的深度估计算法在同一个像素点上只能预测一个深度值。这导致 DWI 方法无法正确处理反射场景 —— 它们往往会将物体反射的光学成像如同纹理一样错误地 “贴” 在镜子表面，导致 3D 观感极度违和。

基于以上的现象观察和论述，我们可以得到：在镜面反射、透明等一个位置具备多个光学深度的场景下，单目深度估计算法预测得出的单一深度值，将无法通过简单的反比几何关系导出视差从而进行正确的重投影（warp）操作，而作者提出的 StereoPilot 则很好处理了“镜中花”的场景，如下图所示：

3. 格式不一致（Format Inconsistency）与几何假设失效

目前的 DWI 方法通常假设：深度（Depth）与视差（Disparity）之间存在简单的反比关系。这种假设仅对平行摄像机（Parallel）配置有效。然而， 3D 电影影视工业中，为了获得更好的观影体验，通常使用的是汇聚摄像机（Converged/Toe-in）。在汇聚模式下，上述简单的几何假设不再成立，强行使用 DWI 方法会导致视差计算错误，和需要还原的 3D 训练数据无法达成一致。

拨开迷雾：Converged（汇聚式） vs. Parallel（平行式）

为了彻底解决格式问题，我们必须先理清 3D 视频数据的两种主要格式，StereoPlilot 的作者用下面的图例形象地展示了两种数据格式的区别：

平行格式（Parallel）

其视差与深度成简单的反比关系

汇聚格式（Converged）

这是 3D 电影工业的标准格式。深度与视差之间不再存在简单的反比关系。

下面两个例子形象展示了了两种 3D 数据格式的区别：

平行格式（Parallel）vs 汇聚格式（Converged）

由于先前的研究工作往往从未对这两种格式进行区分，或者只在单一格式上进行训练，不可避免的带来了一些不合理的对比，如将汇聚式 3D 电影数据集上训练的模型在平行光轴的数据集上进行测试对比。

StereoPilot：统一、高效的端到端解决方案

为了攻克上述难题，快手可灵联合港科大（广州）团队提出了StereoPilot。

UniStereo：首个大规模统一 3D 立体视频数据集

团队构建了UniStereo数据集，数据处理打标流程如下图所示，这是业界首个同时包含 Parallel 和 Converged 两种格式的大规模 3D 立体视频数据集。UniStereo 数据集包含了两个部分：

Stereo4D (Parallel)

3DMovie (Converged)

作者将会公开 Parallel 格式的所有数据和 Converged 格式数据的处理流程。

统一高效的模型结构

StereoPilot 的模型结构如上图所示，主要包含下面三个核心部分：

Diffusion as Feed-Forward 11 秒极速转换

"Diffusion as Feed-Forward"

仅需 11 秒

Domain Switcher 全能格式切换

可学习的 Domain Switcher

Cycle Consistency 保证几何一致性

循环一致性损失（Cycle Consistency Loss）

实验对比展示

定量指标对比

作者在 UniStereo 基准测试集中对近期的 SOTA 方法进行了全面的对比，如表格所示，StereoPilot 在 PSNR、SSIM、LPIPS 等所有核心指标上均显著优于 StereoDiffusion, StereoCrafter, SVG, Mono2Stereo 等现有 SOTA 方法，在推理性能上，对比其他方法动辄十几分钟到一个多小时的推理时间，StereoPilot 的 11 秒的推理速度实现了压倒性的优势。

可视化对比

根据作者展示的可视化对比结果，相比其他的 SOTA 方法，StereoPilot 预测的结果具有更加准确的视差和更高的视觉质量。此外，如前文中分析，StereoPilot 可以处理复杂的镜面场景（如下图中的最后一列的样本），这是其他方法从原理上无法做到的事情。

消融分析

为了验证 StereoPilot 方法中的模块的有效性，作者提供了 Domain Switcher 和 Cycle Consistency 的消融分析实验。

首先，如下展示的动态效果所示，StereoPilot 可以在 Domain Switcher 的加持下，实现 parallel 和 converged 的两种 3D 格式的灵活转换。

除了实现灵活统一的 3D 视频转换外，作者进一步地进行定量和定性实验，验证统一地训练方式对模型泛化性能的影响，如下图表所示：

从图表展示的结果可以看出 Domain Switcher 和 Cycle Consistency 为模型在测试集上提供了更好的泛化性能与一致性。

结语

快手可灵团队和港科大广州联合提出的 StereoPilot，实现了快速高质量的端到端 2D 视频转 3D 视频，打破了 2D 转 3D 依赖昂贵人工或低效深度重投影的桎梏，为 VR/AR 内容创作、老电影修复以及沉浸式视频体验提供了新的可能性。此外，团队首次阐明 parallel 和 converged 两种 3D 立体视频数据的格式，并首次构建了大规模统一 3D 立体视频数据集，澄清了该领域的训练、测评标准。

[1] https://zh.wikipedia.org/wiki/% E6% B3% B0% E5%9D% A6% E5% B0% BC% E5%85%8B% E5%8F% B7_(1997% E5% B9% B4% E7%94% B5% E5% BD% B1)