Visual queries 3D localization (VQ3D) is a task in the Ego4D Episodic Memory Benchmark. Given an egocentric video, the goal is to answer queries of the form "Where did I last see object X?", where the query object X is specified as a static image, and the answer should be a 3D displacement vector pointing to object X. However, current techniques use naive ways to estimate the camera poses of video frames, resulting in a low query with pose (QwP) ratio, thus a poor overall success rate. We design a new pipeline for the challenging egocentric video camera pose estimation problem in our work. Moreover, we revisit the current VQ3D framework and optimize it in terms of performance and efficiency. As a result, we get the top-1 overall success rate of 25.8% on VQ3D leaderboard, which is two times better than the 8.7% reported by the baseline.
翻译:视觉查询 3D 本地化 (VQ3D) 是 Ego4D Episodic Memory 基准( VQ3D) 中的一项任务。 在以自我为中心的视频中, 目标是回答“ 我最后一次看到对象 X 在哪里? ” 的答题, 查询对象 X 是静态图像, 答案应该是指向对象 X 的 3D 迁移矢量 。 然而, 当前技术使用天真的方法来估计摄像头的摄像头配置, 从而导致低质质( QwP) 比例的询问, 从而导致总体成功率低下。 我们设计了一条新的管道, 用于挑战性的以自我为中心的视频摄像头的管道, 给我们的工作带来了估算问题。 此外, 我们重新审视了当前的 VQ3D 框架, 并在性能和效率方面优化了它。 结果, 我们在 VQ3D 头板上获得了25.8% 的总成功率比基准报告的8.7%高2倍。