This paper tackles the problem of depth estimation from a single image. Existing work either focuses on generalization performance disregarding metric scale, i.e. relative depth estimation, or state-of-the-art results on specific datasets, i.e. metric depth estimation. We propose the first approach that combines both worlds, leading to a model with excellent generalization performance while maintaining metric scale. Our flagship model, ZoeD-M12-NK, is pre-trained on 12 datasets using relative depth and fine-tuned on two datasets using metric depth. We use a lightweight head with a novel bin adjustment design called metric bins module for each domain. During inference, each input image is automatically routed to the appropriate head using a latent classifier. Our framework admits multiple configurations depending on the datasets used for relative depth pre-training and metric fine-tuning. Without pre-training, we can already significantly improve the state of the art (SOTA) on the NYU Depth v2 indoor dataset. Pre-training on twelve datasets and fine-tuning on the NYU Depth v2 indoor dataset, we can further improve SOTA for a total of 21% in terms of relative absolute error (REL). Finally, ZoeD-M12-NK is the first model that can jointly train on multiple datasets (NYU Depth v2 and KITTI) without a significant drop in performance and achieve unprecedented zero-shot generalization performance to eight unseen datasets from both indoor and outdoor domains. The code and pre-trained models are publicly available at https://github.com/isl-org/ZoeDepth .
翻译:本文从单个图像中处理深度估算问题 。 现有工作要么侧重于一般化性能, 忽略衡量尺度, 即相对深度估测, 或具体数据集( 即 度深度估测) 的最先进的结果 。 我们提出第一个方法, 将两个世界结合起来, 导致一个模型, 在维持度标度标度的同时, 使用优异的概括性性性能 。 我们的旗舰模型 ZoeD- M12- NK, 使用相对深度对12个数据集进行预先训练, 并使用度深度对两个数据集进行微调 。 我们使用一个轻量级头, 配上一个叫得上每个域的新型硬盘调整模型, 称为 公吨 模块模块 。 在推断过程中, 每种输入图像都自动通过隐蔽的分类向适当的头部输入 。 我们的框架承认多种配置, 取决于用于相对深度前12 训练前 度 和 度 内部数据集, 我们可以大幅改进 NYU 深度 V2 和 直径 的直径 直径 数据 。 在 21 直径 的直径 直径 度 度 的 数据 直径 直径 上, 我们可以进一步训练 直径 直, 直 直 直 直 直, 可以, 可以, 可以 直径 直 直 直 直 。</s>