请问是否有这样的神经网络实现或研究先例?
关注者
29被浏览
4,804登录后你可以
不限量看优质回答私信答主深度交流精彩内容一键收藏
这是多模态(multi-modal)任务,也就是把不同模态的数据关联起来。
比如CV里把图像和文字关联起来做image caption generation,软工领域把源代码和自然语言描述关联起来做code summarization和基于自然语言描述的code search。
常用的方法是多模态嵌入(multi-modal embedding),在dblp上搜一下关键字能找到很多文章。