【技术解析】VideoSwap如何用语义点实现高精度视频主体替换
视频编辑领域长期面临一个核心难题:如何在保持原始运动轨迹的前提下,实现任意物体的灵活替换。传统方案要么依赖光流估计,要么采用注意力图机制,但这些方法在面对大幅度形状变化时往往顾此失彼——要么时间一致性崩塌,要么运动轨迹失真。VideoSwap的出现,标志着这一技术瓶颈被正式突破。
技术路径:从编码到语义引导的完整pipeline
VideoSwap的技术架构建立在潜扩散模型基础之上。其核心流程包含三个关键阶段:首先是VAE编码器对源视频进行压缩,获得潜空间表示;其次通过DDIM反演将编码结果转换为带噪声的表示;最后在去噪过程中引入语义点对应关系,引导目标主题遵循原始运动轨迹生成。
该方案的技术创新点集中体现在语义点提取与注册机制上。系统要求用户在关键帧中标定语义点,随后从视频中提取这些点对应的轨迹embedding。embedding经多层MLP投射后,根据坐标位置注入空特征,再以逐元素方式添加到扩散模型中作为运动引导信号。这一设计使得运动信息的传递变得可控且精确。
核心突破:语义点的增删与拖拽机制
传统方法面临形状变化限制的根本原因在于其运动描述过于刚性。VideoSwap通过引入语义点的增删机制彻底解决了这一问题。当替换对象形状差异较大时(如SUV变超跑),用户可以删除冗余语义点;当需要微调时,则可直接拖拽语义点对齐新对象的几何特征。
这里涉及的关键技术是基于分层神经图谱(LNA)的点位移传播。用户拖动产生的位移通过LNA的规范空间一致传播至每一帧,确保运动轨迹的全局一致性。实验结果表明,即便面对大幅度的形状变形,系统仍能保持运动轨迹的完美复刻,替换前后的轨迹保真度达到像素级一致。
性能验证:SOTA背后的量化优势
研究团队通过大量测试验证了VideoSwap的有效性。在飞机变直升机的对比实验中,主流方法多数仅在机头区域呈现直升机特征,且伴随明显闪烁与伪影;VideoSwap则实现了全面且自然的视觉替换。这一对比直观展示了语义点引导机制相较于传统注意力图方法的技术代差。
VideoSwap由新加坡国立大学与Meta联合研发,一作YuchaoGu来自NUS博士项目,通讯作者为助理教授MikeZ.Shou。该工作为AIGC视频生成领域提供了新的技术范式,其语义点驱动的方法论或将成为后续研究的重要参考方向。


