请问是否有这样的神经网络实现或研究先例？

Question

把不同embedding space的向量直接concat到一起作为神经网络的输入，例如给定图像embedding和文字embedding，做一个神…

关注者

29

被浏览

4,804

登录后你可以

不限量看优质回答私信答主深度交流精彩内容一键收藏

这是多模态（multi-modal）任务，也就是把不同模态的数据关联起来。

比如CV里把图像和文字关联起来做image caption generation，软工领域把源代码和自然语言描述关联起来做code summarization和基于自然语言描述的code search。

常用的方法是多模态嵌入（multi-modal embedding），在dblp上搜一下关键字能找到很多文章。