新智元报道
编辑:LRST
【新智元导读】让静态3D模型「动起来」一直是图形学界的难题:物理模拟太慢,生成模型又不讲「物理基本法」。近日,北京大学团队提出DragMesh,通过「语义-几何解耦」范式与双四元数VAE,成功将核心生成模块的算力消耗降低至SOTA模型的1/10,同时将运动轴预测误差降低了10倍。得益于底层数学的完备性,该模型无需任何标注,即可让任意静态Mesh实现符合物理规律的实时交互。
在生成式AI的浪潮下,业界已经可以通过LRM、TripoSR等模型生成高质量的静态3D资产。
然而,一个完整的3D世界模型(World Model)不仅需要知道物体「长什么样」,更需要理解它们「怎么动」以及如何响应用户的交互。
当前的3D交互生成领域面临着一道难以逾越的「交互-保真度鸿沟」:
1. 物理模拟派(如基于优化的方法):虽然物理一致性高,但计算过于沉重,无法满足实时交互需求。
2. 纯生成派(如基于扩散模型的方法):虽然生成速度较快,但经常违反运动学约束,产生「关节脱臼」、「穿模」或轨迹漂移等幻觉。
为了打破这一僵局,北京大学团队推出了DragMesh,这是一个专为实时交互设计的轻量级框架,它没有盲目堆砌算力,而是从数学表征和架构设计底层入手,实现了物理真实性与计算效率的双重飞跃。
论文链接:https://arxiv.org/abs/2512.06424
代码链接:https://github.com/AlGeeksGroup/DragMesh
项目主页:https://aigeeksgroup.github.io/DragMesh
核心技术
两大创新重塑3D交互
DragMesh 并没有采用端到端的暴力生成,而是提出了解耦的设计哲学。团队认为,现有模型之所以庞大且低效,是因为试图用一个网络同时解决「语义理解」(这是微波炉还是柜子?)和「动作生成」(它该怎么转?)这两个性质完全不同的问题。
语义-几何解耦范式
DragMesh将交互过程拆解为两个轻量级流水线:
inference pipeline(推理流程)
意图推理:利用 VLM(如 GPT-4o)的通识能力,快速判断用户的交互意图,解决语义歧义(例如:判断关节类型是旋转的合页还是滑动的抽屉)。
几何回归:团队设计了专用的 KPP-Net (Kinematics Prediction Network) 。不同于通用的点云编码器,KPP-Net采用了双流注意力机制,专门用于从 Mesh 和拖拽信号中回归精准的关节轴和原点。
这种解耦设计使得核心生成网络不再需要「猜测」物体结构,而是直接基于预测出的运动学参数进行生成,大幅减轻了模型负担。
双四元数VAE
为了解决传统欧拉角(万向节死锁)或变换矩阵(参数冗余、不连续)的问题,团队引入了双四元数 (Dual Quaternions, DQ) 作为核心运动表征。
一个单位双四元数仅需8个参数,即可同时完美描述三维空间中的旋转和平移,且天然满足螺旋运动理论。
基于此,团队构建了DQ-VAE。
DQ-VAE training pipeline
非自回归Transformer解码器:摒弃了容易产生误差累积的自回归方式,采用并行解码,保证了长序列动作的连贯性 。
FiLM条件注入:将KPP-Net预测的关节先验通过FiLM (Feature-wise Linear Modulation) 层注入到Transformer的每一层中,确保生成的每一帧都严格「听从」物理约束。
物理修正模块:在解码器末端引入残差修正,进一步微调轨迹以消除微小的物理漂移,确保最终输出严格遵循物理法则 。
性能评测
算力暴降,精度暴涨
团队在GAPartNet和Objaverse数据集上进行了广泛的对比实验,结果显示DragMesh在各项指标上均实现了高效提升 。
效率:比SOTA提速10倍
性能对比,横轴为计算量 (GFLOPs),气泡大小代表参数量。紫色气泡代表现有的通用模型(如DragAPart, PartRM),它们往往参数量巨大且计算昂贵 。DragMesh(左下角)的核心生成模块参数量仅为27.5M,GFLOPs 仅为5.2 。
相比MeshArt (304M Params, 1540 GFLOPs) 和DragAPart (1100M Params, 350 GFLOPs),DragMesh的计算开销降低了5到10倍,且无需针对每个物体单独训练。
精度:几何误差降低一个数量级
在运动学预测的消融实验中,架构的优势尤为明显 :
Baseline (PointNet),轴预测误差高达450.0mrad
Ours (KPP-Net),通过解耦设计与双流注意力机制,轴预测误差降至45.0mrad,原点预测误差仅为1.8mm
这意味着用户在拖拽柜门时,DragMesh预测的旋转轴偏差极小,几乎不会出现门板「飞出」或「歪斜」的现象。
物理一致性可视化
对比分析
在定性对比中,面对微波炉、折叠椅等物体时,
ArtGS / PartRM:因为流程复杂需要的前验内容较多,经常出现结构崩坏或无法识别的情况(图中标空缺部分)。
DragMesh:无论是平移(抽屉)还是旋转(门、翻盖),都能生成平滑、结构完整的运动轨迹,且严格保持了物体的刚性结构 。
总结与展望
开启通用物理交互新纪元
DragMesh的发布不仅仅是提出了一个新的模型,更重要的是验证了一条通往3D世界模型的极简路径 。
传统方法往往需要针对「旋转」和「平移」分别设计约束,而DragMesh采用的双四元数从数学底层上实现了刚体运动的「大一统」 。
根据沙勒定理,空间中任意刚体运动都可以描述为螺旋运动。这意味着 DragMesh 的核心架构天然具备描述世间万物复杂运动的能力。
无论是机械臂的复合扭转,还是更精密的螺旋传动,DragMesh 无需修改底层架构,即可将其纳入「语义-几何」的统一流形中。
得益于解耦设计与DQ-VAE的紧凑表征,DragMesh成功将物理交互带入实时时代,证明了我们不需要等待分钟级的物理模拟,也不需要忍受离线渲染的延迟。
在未来的元宇宙构建、机器人仿真以及数字孪生场景中,DragMesh这种「即拖即动、即动即真」的轻量化范式,将成为赋予静态资产「物理常识」的基础设施 。
未来,DragMesh将继续利用其在螺旋理论上的数学优势,向多关节级联及更复杂的动力学场景从容扩展,让AI真正理解物理世界的运行规律。
参考资料:
https://arxiv.org/abs/2512.06424
秒追ASI
⭐点赞、转发、在看一键三连⭐
点亮星标,锁定新智元极速推送!