深度学习框架,无论是监督学习还是无监督学习,在广泛的2D和3D视觉理解任务中都取得了显著成功。然而,尽管这些模型在捕捉视觉数据的语义方面表现出色,但它们往往难以在其高维潜在空间中表示或推理几何关系。例如,在像ShapeNet这样的数据集上训练的点云网络,通常在评估任意姿态的物体时表现不佳。这些限制并非个别事件;它们反映了当前学习范式中的广泛挑战,特别是在现实世界应用中当鲁棒性、可泛化性和可信性至关重要时。本文从深度神经网络表示的角度解决了这些挑战。具体来说,我探索了如何将几何操作符融入网络架构中,以增强它们建模广泛几何变换的能力,从简单的刚性运动到复杂的多体动力学和形变。我开发了一系列方法,将几何结构嵌入潜在空间,从而使得网络在各种视觉任务中展示出更好的泛化能力、数据效率、鲁棒性和跨任务的互操作性,从感知和理解到与视觉世界的交互。
**
**
**
**
**
**