请问是否有这样的神经网络实现或研究先例?

把不同embedding space的向量直接concat到一起作为神经网络的输入, 例如给定图像embedding和文字embedding,做一个神…
关注者
29
被浏览
4,804
登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏

这是多模态(multi-modal)任务,也就是把不同模态的数据关联起来。

比如CV里把图像和文字关联起来做image caption generation,软工领域把源代码和自然语言描述关联起来做code summarization和基于自然语言描述的code search。

常用的方法是多模态嵌入(multi-modal embedding),在dblp上搜一下关键字能找到很多文章。