我们对世界的体验是多模态的——我们看到物体,听到声音,感觉到纹理,闻到气味,尝到味道。模态是指某件事情发生或经历的方式,一个研究问题如果包含多个模态,就被称为多模态。为了让人工智能在理解我们周围的世界方面取得进展,它需要能够一起解释这种多模态信号。多模态机器学习旨在建立能够处理和关联来自多种模式的信息的模型。这是一个日益重要和具有非凡潜力的充满活力的多学科领域。

知识荟萃

多模态机器学习(Multimodal Machine Learning)专知荟萃

综述

模型算法

表示学习

多模态融合

多模态对齐

多模态翻译

Missing or Imperfect Modalities

知识图谱和知识库

可解释学习

生成式学习

半监督学习

自监督学习

语言模型

Adversarial Attacks

小样本学习

应用

语言和视觉问答

Language Grounding in Vision

Language Grouding in Navigation

多模态机器翻译

Multi-agent Communication

常识推理

多模态强化学习

多模态对话

语言和音频

音频和视频

多媒体描述

Video Generation from Text

Affect Recognition and Multimodal Language

医疗

Robotics

WorkShops

Tutorials

视频教程

VIP内容

多模态机器学习(MMML)是一个充满活力的多学科研究领域,通过整合和建模多种交流模态(包括语言、声音和视觉信息)来实现人工智能的一些原始目标。随着对视听语音识别的初步研究,以及最近的语言和视觉项目,如图像和视频字幕,这个研究领域给多模态研究人员带来了一些独特的挑战,因为数据的异质性和模式之间经常发现的偶然性。本课程将教授与MMML相关的基本数学概念,包括多模态对齐与融合、异质表示学习和多流时间建模。我们还将回顾最近描述最先进的MMML概率模型和计算算法的论文,并讨论当前和即将面临的挑战。

本课程将介绍机器学习和深度学习中与多模态机器学习中的五个主要挑战相关的基本数学概念:(1)多模态表示学习,(2)平移与映射,(3)模态对齐,(4)多模态融合和(5)协同学习。这些包括但不限于,多模态自动编码器,深度典型相关分析,多核学习,注意力模型和多模态递归神经网络。本课程还将讨论MMML的许多最新应用,包括多模式的情感识别、图像和视频字幕以及跨模式的多媒体检索。

课程目录:

  • 课程导论
  • 多模态应用与数据集
  • 基本概念:神经网络
  • 网络优化
  • 视觉单模态表示学习
  • 语言单模态表示学习
  • 多模态表示学习
  • 多模态对齐
  • 结构化表示
  • 概率图模型
  • 判别性图模型
  • 神经生成模型
  • 强化学习
  • 多模态强化学习
  • 融合与协同学习
  • 多语言表示学习
成为VIP会员查看完整内容
1
50

最新论文

The applications of short-termuser generated video(UGV),such as snapchat, youtube short-term videos, booms recently,raising lots of multimodal machine learning tasks. Amongthem, learning the correspondence between audio and vi-sual information from videos is a challenging one. Mostprevious work of theaudio-visual correspondence(AVC)learning only investigated on constrained videos or simplesettings, which may not fit the application of UGV. In thispaper, we proposed new principles for AVC and introduced anew framework to set sight on the themes of videos to facili-tate AVC learning. We also released the KWAI-AD-AudViscorpus which contained 85432 short advertisement videos(around 913 hours) made by users. We evaluated our pro-posed approach on this corpus and it was able to outperformthe baseline by 23.15% absolute differenc

0
0
下载
预览
Top