Point tracking aims to localize corresponding points across video frames, serving as a fundamental task for 4D reconstruction, robotics, and video editing. Existing methods commonly rely on shallow convolutional backbones such as ResNet that process frames independently, lacking temporal coherence and producing unreliable matching costs under challenging conditions. Through systematic analysis, we find that video Diffusion Transformers (DiTs), pre-trained on large-scale real-world videos with spatio-temporal attention, inherently exhibit strong point tracking capability and robustly handle dynamic motions and frequent occlusions. We propose DiTracker, which adapts video DiTs through: (1) query-key attention matching, (2) lightweight LoRA tuning, and (3) cost fusion with a ResNet backbone. Despite training with 8 times smaller batch size, DiTracker achieves state-of-the-art performance on challenging ITTO benchmark and matches or outperforms state-of-the-art models on TAP-Vid benchmarks. Our work validates video DiT features as an effective and efficient foundation for point tracking.


翻译:点追踪旨在定位视频帧间的对应点,是4D重建、机器人学和视频编辑的基础任务。现有方法通常依赖浅层卷积骨干网络(如ResNet)独立处理各帧,缺乏时间连贯性,在复杂条件下产生不可靠的匹配代价。通过系统分析,我们发现基于时空注意力机制在大规模真实世界视频上预训练的视频扩散Transformer(DiT)天然具备强大的点追踪能力,并能稳健处理动态运动和频繁遮挡。我们提出DiTracker方法,通过以下方式适配视频DiT:(1)查询-键注意力匹配,(2)轻量级LoRA微调,(3)与ResNet骨干网络的代价融合。尽管训练批次规模缩小8倍,DiTracker在具有挑战性的ITTO基准测试中达到最先进性能,并在TAP-Vid基准测试中与现有最优模型持平或更优。本工作验证了视频DiT特征可作为点追踪任务高效且有效的基座模型。

0
下载
关闭预览

相关内容

图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员