卡耐基梅隆大学(Carnegie Mellon University)坐落在宾夕法尼亚州的匹兹堡,是一所享誉世界的私立顶级研究型大学,学校面积不大,学科门类不多,但在其所设立的几乎所有专业都居于世界领先水平。卡内基梅隆大学享誉全国的认知心理学、管理和公共关系学、写作和修辞学、应用历史学、哲学和生物科学专业。它的计算机、机器人科学、理学、美术及工业管理都是举世公认的一流专业。

VIP内容

多模态机器学习(MMML)是一个充满活力的多学科研究领域,通过整合和建模多种交流模态(包括语言、声音和视觉信息)来实现人工智能的一些原始目标。随着对视听语音识别的初步研究,以及最近的语言和视觉项目,如图像和视频字幕,这个研究领域给多模态研究人员带来了一些独特的挑战,因为数据的异质性和模式之间经常发现的偶然性。本课程将教授与MMML相关的基本数学概念,包括多模态对齐与融合、异质表示学习和多流时间建模。我们还将回顾最近描述最先进的MMML概率模型和计算算法的论文,并讨论当前和即将面临的挑战。

本课程将介绍机器学习和深度学习中与多模态机器学习中的五个主要挑战相关的基本数学概念:(1)多模态表示学习,(2)平移与映射,(3)模态对齐,(4)多模态融合和(5)协同学习。这些包括但不限于,多模态自动编码器,深度典型相关分析,多核学习,注意力模型和多模态递归神经网络。本课程还将讨论MMML的许多最新应用,包括多模式的情感识别、图像和视频字幕以及跨模式的多媒体检索。

课程目录:

  • 课程导论
  • 多模态应用与数据集
  • 基本概念:神经网络
  • 网络优化
  • 视觉单模态表示学习
  • 语言单模态表示学习
  • 多模态表示学习
  • 多模态对齐
  • 结构化表示
  • 概率图模型
  • 判别性图模型
  • 神经生成模型
  • 强化学习
  • 多模态强化学习
  • 融合与协同学习
  • 多语言表示学习
成为VIP会员查看完整内容
1
50
Top