视觉世界由离散的、有意义的物体组成,人类能够在没有监督的情况下轻松地感知并分割这些物体。在计算机视觉中模拟这一能力是一个根本性的问题,为监督方法提供了一种更具认知合理性和可扩展性的替代方案。本文探讨了不依赖于密集掩码标注的情况下,发现视觉物体的原则性方法。 首先,我们探讨了组合性原则(principle of compositionality),该原则认为场景是由离散的、可重用的物体组成的。基于这一原则,已有许多方法,但我们注意到它们仅适用于简单的环境。为此,我们引入了一系列新的基准数据集,分析现有方法是否能扩展到视觉上复杂的输入。大多数方法在处理复杂场景时表现不佳,需要更简单、统一的外观才能产生良好的分割效果。 其次,我们探讨了共同命运原则(principle of common fate),该原则认为一起运动的实体应当被归为一组。我们设计了几种损失函数,将掩码预测与场景运动的估计关联起来,以处理二物体和多物体的场景。我们提出的这些方法可以应用于各种现有的分割方法,借助运动学习来补充其学习原理。 随后,我们考虑了瞬时运动的局限性,并提出了使用稀疏点轨迹来整合长期运动信息。为实现这一目标,我们设计了一种损失函数,强化了这样一个理念:一个物体中的轨迹应具有较高的冗余性。 最后,我们探索了如何利用现有语言结构来进行物体分割,而无需任何密集的掩码标注。我们构建了一种开放词汇分割方法,使用预训练的文本到图像扩散模型(text-to-image diffusion model)将语言与物体的视觉表示相连接。这种方法避免了进一步训练,展示了文本到图像扩散模型作为强大的开放词汇分割方法的潜力。