视觉对话主要任务为:AI代理与人类以自然的会话语言对视觉内容进行有意义的对话。具体而言,给定图像,对话历史和关于图像的问题,代理必须将问题置于图像中,从历史推断上下文,并准确的回答问题。视觉对话具有访问和理解的多轮对话历史,所以需要一个可以组合多个信息源的编码器。
Pytorch多模态框架MMF
专知
49+阅读 · 2020年6月20日
IJCAI 2020 | DAM: 面向视觉对话的高质量回复生成框架
AI科技评论
4+阅读 · 2020年5月23日
AAAI20好文推荐 | 视觉对话,VDST可以提出更好的问题?!
中国图象图形学报
4+阅读 · 2020年4月6日
AAAI 2020 | 这 10 篇论文值得你了解(附PPT下载)
AI科技评论
5+阅读 · 2019年12月28日
微软论文解读:用于视觉对话的多步双重注意力模型
黑龙江大学自然语言处理实验室
1+阅读 · 2019年5月15日
参考链接
微信扫码咨询专知VIP会员