多模态多任务学习新论文- 专知

多模态多任务学习新论文

【导读】在本文中，我们提出了一个多任务模型，能够共同学习这些多模式任务，并在任务中传递单词的知识及其在视觉对象中的基础。

【摘要】

最近在使用深度强化学习的语言训练视觉导航智能体方面的努力已经成功地学习了用于不同多模态任务的策略，例如语义目标导航和问答。在本文中，我们提出了一个多任务模型，能够共同学习这些多模式任务，并在任务中传递单词的知识及其在视觉对象中的基础。论文中所提出的模型使用新颖的双注意单元来解开视觉表示中的文本表示和视觉概念中的单词的知识，并使它们彼此对齐。这种解耦的任务不变的表示对齐有助于跨两个任务的基础和知识转移。我们表明，所提出的模型在模拟3D环境中优于两个任务的一系列基线。我们还表明，这种表示的解开使我们的模型模块化，可解释，并允许通过利用对象检测器转移到包含新单词的指令。

【简介】

多模态任务: 我们专注于两个基于视觉的语言导航任务的多任务学习：在语义目标导航（Semantic Goal Navigation: SGN）中，智能体被给予语言指令（“转到红色火炬”）以导航到目标位置。在Embodied Question Answering（EQA）中，智能体会被问道：“火炬的颜色是什么？”，它必须在3D环境中切换以探索环境并收集信息以回答问题（“红色”）。