教程题目:Learning from 3D (Point Cloud) Data

教程简介

在(3D)点云上学习对于自动驾驶、机器人感知、VR/AR、游戏和安全等广泛的新兴应用至关重要。由于激光雷达、3D相机和RGB-D等3D传感器的普及,这种需求最近有所增加。点云由成千上万个点组成,是对传统2D相机的补充。点云数据上的三维学习算法是一种全新的、令人兴奋的方法,可以解决三维分类、检测、语义分割和人脸识别等众多核心问题。本教程涵盖点云数据的需求、捕获数据的背景、3D表示、新兴应用程序、核心问题、最新的学习算法(例如,基于体素、基于点的算法等)和未来的研究机会。还将展示最近工作在几个三维基准,如ScanNet, KITTI等。

组织者:

徐宏民教授是一位活跃的研究人员,致力于大型图像/视频检索/挖掘、视觉识别和机器智能。他是国立台湾大学计算机科学与资讯工程学系的教授。他和他的团队获得了多媒体和计算机视觉研究领域的技术奖项,包括IBM research的Pat Goldberg Memorial最佳论文奖(2018),2017年ACM多媒体大会最佳新创意论文奖,IARPA变脸大赛第一名(CVPR 2018), 2011年ACM多媒体大挑战一等奖,2013/2014年度ACM多媒体大挑战多模态奖等。徐教授热衷于通过学术-产业合作和共同创办创业公司来实现对商业成果的先进研究。2014年,他是微软雷德蒙德研究院的访问科学家,2016-2017年,他在IBM TJ Watson研究中心休了一年的年假。他曾担任《IEEE视频技术电路与系统学报》(TCSVT)和《IEEE多媒体学报》(IEEE Multimedia Transactions on Video Technology)的副主编,并担任《IEEE多媒体杂志》(2010 - 2017)的编委。

成为VIP会员查看完整内容
0
20

相关内容

【导读】三维深度学习对于处理真实场景数据具有重要的意义,3D理解对于很多应用程序都是至关重要的,比如自动驾驶汽车、自动机器人、虚拟现实和增强现实。来自UC San Diego的苏昊老师一直以来研究3D深度学习,他的一份3D Deep Learning教程,共有156页ppt,是学习了解三维深度学习的重要资料。

地址:

http://cseweb.ucsd.edu/~haosu/talks.html#_3d_deep_learning

视频地址: https://youtu.be/vfL6uJYFrp4

深度学习最近很流行,在处理文本、声音或图像等任务时都表现出色。由于其出色的性能,已经有人努力将其应用于更具挑战性的场景,例如,3D数据处理。在这次的演讲中,我将结合自己的工作,对三维深度学习的进展进行一个概述,涉及的领域非常广泛,包括三维识别、单幅图像的三维重建、新视角合成、三维形状空间学习、三维形状补全等。在对目前进展的概述的基础上,我还将提出几个可能的方向来推动该领域的发展,把它放在通用AI的角度。

3D理解对于很多应用都是至关重要的,比如自动驾驶汽车、自动机器人、虚拟现实和增强现实。与以常规像素阵列为主的二维图像不同,三维数据可以由激光雷达传感器等不规则的三维点云来表示。这对深入的架构设计提出了挑战。

本教程将介绍用于3D理解的3D数据分析的深度学习算法,如3D语义分割、3D对象检测和跟踪。尽管取得了这些进展,但在静态和动态环境中,诸如活动识别、行为预测和推断三维场景中物体的空间关系等问题仍然存在根本性的挑战。此外,由于我们的世界本质上是3D的,因此3D深度学习对于表示学习对输入扰动具有鲁棒性,并推广到具有高样本效率的真实世界变化(例如,转换不变性)是至关重要的。本教程提供了一个及时的机会,让计算机视觉社区参与到3D深度学习的独特挑战和机会中来。

苏昊(University of California, San Diego),2017年起在UCSD计算机工程学院担任助理教授,主要研究方向为人工智能领域的结构理解、形状理解、场景理解,研究成果主要集中在机器学习、计算机图像等方面,应用领域包括自动驾驶及VR/AR等方面。

http://cseweb.ucsd.edu/~haosu/

目录内容:

Part I: 3D Data, by Hao Su

Part II: Classification, by Hao Su

Part II: Segmentation & Detection, by Jiayuan Gu

Part III: 3D Data Synthesis, by Minghua Liu

成为VIP会员查看完整内容
0
43

题目: Review: deep learning on 3D point clouds

简介:

点云是在三维度量空间中定义的点集。点云已经成为三维表示中最重要的数据格式之一。由于激光雷达等获取设备的可用性增加以及机器人、自动驾驶、增强和虚拟现实等领域的应用增加,它越来越受欢迎。深度学习现在是计算机视觉中最强大的数据处理工具,成为分类、分割和检测等任务的首选技术。深度学习技术主要应用于具有结构化网格的数据,而点云则是非结构化的。点云的无结构使得深度学习直接处理点云非常具有挑战性。早期的方法通过将点云预处理成结构化的网格格式来克服这一挑战,代价是计算成本的增加或深度信息的丢失。然而,最近许多先进的深度学习技术正在开发中,这些技术可以直接操作点云。这篇论文包含了对当前最先进的深度学习技术的调查,这些技术主要集中在点云数据上。我们首先简要地讨论了在点云上直接使用深度学习所面临的主要挑战,我们还简要地讨论了通过将点云预处理成结构化网格来克服这些挑战的早期方法。然后,我们回顾了各种先进的深度学习方法,直接处理点云的非结构化形式。我们介绍了流行的3D点云基准数据集。我们还进一步讨论了深度学习在当前流行的三维视觉任务中的应用,包括分类、分割和检测。

作者:

王程,福建省特支“双百计划”入选者、福建省科技创新领军人才、厦门大学计算机科学系教授、博士生导师、副院长。研究方向:三维视觉,空间大数据分析,激光雷达,虚拟/增强现实。个人主页:http://www.cwang93.net/#

成为VIP会员查看完整内容
0
43

题目主题: Small Data Challenges in Big Data Era: Unsupervised and Semi-Supervised Methods

简介: 在本教程中,我们将回顾在训练深度神经网络中使用有限带注释的数据克服小数据挑战的最新进展。我们将以无监督和半监督的方法来复习文献,包括基本原理,标准,考虑因素和网络设计,并希望对如何有效利用大量未标记的数据促进模型训练和推断提供一些启示。

小数据挑战已经在许多学习问题中出现,因为深度神经网络的成功通常依赖于大量标记数据的可用性,而这些数据收集起来很昂贵。为了解决这些挑战,以无监督和半监督的方式训练带有小数据的复杂模型方面已经做出了很多努力。在本教程中,我们将回顾这两种主要方法的最新进展。各种各样的小型数据模型将被概括为一幅大图,在这里我们将展示它们如何相互作用。具体来说,我们将回顾学习变换等,自我监督和半监督表示形式的标准,这些标准为最近的发展奠定了基础。

作者介绍: Guo-Jun Qi是华为的首席科学家,领导并监督着多个智能云服务领域的国际研发团队,包括智能城市,视觉计算服务,医疗智能服务和互联车辆服务。 他自2014年8月起担任佛罗里达大学计算机科学系的教授,并担任机械感知与学习(MAPLE)实验室的主任。在此之前,他还是研究人员在IBM TJ纽约州约克敦高地的沃森研究中心。他的研究兴趣包括从多模式数据源(例如图像,视频,文本和传感器)中进行机器学习和知识发现,以构建智能,可靠的信息和决策系统。他的研究得到了政府机构和行业合作者(包括NSF,IARPA,微软,IBM和Adobe)的资助和项目的赞助。

Jiebo Luo在柯达研究实验室工作了十五年多之后,于2011年秋天加入罗切斯特大学,在那里他是负责研究和先进开发的高级首席科学家。 他参加过许多技术会议,并担任ACM Multimedia 2010,IEEE CVPR 2012,ACM ICMR 2016和IEEE ICIP 2017的程序联席主席。研究方向为智能系统和技术交易,模式识别,机器视觉和应用,知识和信息系统以及电子成像杂志。 罗博士是SPIE,IAPR,IEEE,ACM和AAAI的会员。

大纲介绍:

  • 回顾:小样本数据
  • 无监督
    • TER
      • 等价图卷积
      • 自编码器转换
    • 生成表示
      • 自编码器介绍
      • 基于GAN的表示
      • 生成模型
    • 自监督方法
  • 半监督
    • 半监督生成模型
      • 半监督自编码器
      • 半监督GAN
      • 半监督Disentangled 表示
    • teacher-student模型
      • 嘈杂teacher
      • teacher集成
      • 对抗teacher
成为VIP会员查看完整内容
0
21

题目: Multimodal Intelligence: Representation Learning, Information Fusion, and Applications

摘要: 自2010年以来,深度学习已经彻底改变了语音识别、图像识别和自然语言处理,每一项都涉及到输入信号中的单一模态。然而,人工智能中的许多应用都涉及到一种以上的模式。因此,研究跨多种模式的建模和学习这一更为困难和复杂的问题具有广泛的兴趣。本文对多模态智能的模型和学习方法进行了技术综述。视觉与自然语言的结合已成为计算机视觉和自然语言处理研究领域的一个重要课题。本文从学习多模态表示、多模态信号在不同层次的融合以及多模态应用三个新的角度,对多模态深度学习的最新研究成果进行了综合分析。在多模态表示学习中,我们回顾了嵌入的关键概念,它将多模态信号统一到同一向量空间中,从而实现跨模态信号处理。我们还回顾了为一般下游任务构造和学习的许多嵌入类型的特性。关于多模融合,本文着重介绍了用于集成特定任务的单模信号表示的特殊体系结构。在应用程序方面,涵盖了当前文献中广泛关注的选定领域,包括标题生成、文本到图像生成和可视化问题解答。我们相信,这项检讨有助于社区未来在新兴多模态情报领域的研究。

作者简介:

Zichao Yang (杨子超),他是芝加哥大学计算机科学系的博士生。他对机器学习、深度学习及其在计算机视觉、自然语言处理中的应用感兴趣。在到CMU之前,他获得了香港大学的硕士学位,上海交通大学的学士学位。他之前曾在谷歌DeepMind实习,与Chris Dyer和Phil Blunsom合作,MSR与He Xiaodong、Gao Jianfeng和Li Deng合作。 个人主页:http://www.cs.cmu.edu/~zichaoy/

Xiaodong He(何晓东)是华盛顿大学西雅图分校电气工程系的副教授。他也是微软研究中心的首席研究员,华盛顿州雷德蒙德。1996年获清华大学(北京)学士学位,1999年获中国科学院(北京)硕士学位,2003年获密苏里哥伦比亚大学博士学位。他的研究兴趣在于人工智能领域,包括深度学习、语音、自然语言、计算机视觉、信息检索和知识表示与管理。他撰写/合著了100多篇论文和一本书,并在ACL、CVPR、SIGIR、WWW、CIKM、NIPS、ICLR、IEEE TASLP、Proc上发表。IEEE、IEEE SPM等场馆。他和同事开发了MSR-NRC-SRI条目和MSR条目,分别在2008年NIST机器翻译评估和2011年IWSLT评估(中英文)中获得第一名,并开发了MSR图像字幕系统,在2015年的MS COCO字幕挑战赛中获得一等奖。他曾在多家IEEE期刊担任编辑职务,担任NAACL-HLT 2015地区主席,并在主要演讲和语言处理会议的组织委员会/项目委员会任职。他是IEEESLTC的当选成员,任期2015-2017年。他是IEEE高级成员,2016年IEEE西雅图分部主席。 个人主页:http://faculty.washington.edu/xiaohe/

Li Deng是一位经验丰富的首席执行官,在高科技行业有着丰富的工作经验。在人工智能、机器学习、数学建模、计算机科学、语音识别、自然语言处理、深度学习、神经网络、大数据分析、财务和统计建模等方面具有较强的技术、执行管理和业务开发专业技能。等

成为VIP会员查看完整内容
0
85

报告主题:Holistic 3D Reconstruction: Learning to Reconstruct Holistic 3D Structures from Sensorial Data

报告摘要:整体场景结构的感知,即场景中的有序,规则,对称或重复的模式和关系,在人类视觉中起着至关重要的作用。在办公楼等人造环境中行走时,人们可以立即识别平行线,矩形,长方体,旋转对称性,重复性图案以及许多其他类型的结构,并利用它们进行准确而强大的3D定位,定向和导航。在计算机视觉中,从各种传感器(例如单眼和双目视觉,LiDAR和RGB-D传感器)获取的数据中,使用此类整体结构元素对物理环境(尤其是人造环境)进行3D建模已有很长的历史。 。这些方法在创建高保真3D模型,提高3D视觉系统的准确性,鲁棒性和可靠性,以及为现代3D应用程序提供高级,紧凑且语义丰富的场景表示方面显示出巨大的成功和潜力。

在这种情况下,此次报告旨在汇集当前的研究进展,并讨论结构化场景的3D建模及其应用中的最新方法。报告将回顾3D结构的多视图几何学的基本理论;分析利用整体3D结构的传统和最新几何方法;当前概述了基于学习的方法和基于几何的方法的融合。最后,我们讨论了在人造环境的3D建模中结合重构和识别的未来可能的方向。

邀请嘉宾:马毅, 1995年获得中国清华大学自动化与应用数学博士学位,并获得硕士学位。 1997年获得EECS学位,2000年获得数学硕士学位。 于2000年从UC Berkeley获得EECS学位。 从2000年至2011年,他在伊利诺伊大学厄本那香槟分校的ECE系任教。从2009年至2013年,他是视觉计算小组的经理和微软研究院在亚洲的首席研究员。 2014年至2017年担任上海科技大学信息科学与技术学院教授和执行院长。他于2018年加入加州大学伯克利分校EECS系。

Zihan Zhou 是宾夕法尼亚州立大学信息科学与技术学院的教职员工。 在加入宾夕法尼亚州立大学之前,在伊利诺伊大学厄本那-香槟分校获得了电气和计算机工程博士学位。 分别于2007年和2007年从中国清华大学获得自动化学士学位,并于2010年从UIUC获得了ECE硕士学位。 其研究兴趣在于计算机视觉,机器学习,信号处理和应用数据科学的广泛领域。 特别关注3D Vision, 具体来说,曾开发了新颖的计算工具来对来自大型视觉数据的3D环境进行建模和分析,并将其应用于解决VR/AR,基于视觉的导航,建筑设计和工程,社交媒体等方面的现实世界难题。

Yasutaka Furukawa,西蒙弗雷泽大学计算机科学系的副教授, 曾是圣路易斯华盛顿大学的助理教授,Google的软件工程师。 在加入Google之前,是华盛顿大学的博士后研究员。 曾与华盛顿大学的Seitz教授和Curless教授以及Facebook的Rick Szeliski一起(曾在Microsoft Research工作)。

成为VIP会员查看完整内容
1-intro.pdf
2-structure-detection.pdf
0
20

主题:Deep Learning for Graphs: Models and Applications

摘要:图提供了多种类型的数据的通用表示,而深度学习在表示学习方面显示了巨大的能力。因此,用图连接深度学习提供了机会,使各种现实世界问题的通用解决方案成为可能。然而,传统的深度学习技术对常规网格数据(如图像和序列)具有破坏性,因此不能直接应用于图结构数据。因此,将这两个领域结合起来面临着巨大的挑战。在本教程中,我将全面概述图深度学习的最新进展,包括模型和应用。特别地,我将介绍一些基本概念,回顾最先进算法,并举例说明各种重要的应用。最后,我将通过讨论开放问题和挑战来总结本教程。

嘉宾简介:唐继良(Jiang Tang)自2016年秋季@起担任密歇根州立大学计算机科学与工程系的助理教授。在此之前,他是Yahoo Research的研究科学家,并于2015年从亚利桑那州立大学获得博士学位。他的研究兴趣包括社交计算,数据挖掘和机器学习及其在教育中的应用。他曾获得2019年NSF职业奖,2015年KDD最佳论文亚军和6项最佳论文奖,包括WSDM2018和KDD2016。他是会议组织者(例如KDD,WSDM和SDM)和期刊编辑(例如TKDD)。他的研究成果发表在高排名的期刊和顶级会议论文集上,获得了数千篇引文(Google学术搜索)和广泛的媒体报道。

PPT链接:https://pan.baidu.com/s/1TMv5YsQbwPcRzGy-BkY-bg

成为VIP会员查看完整内容
0
42

题目主题: Dual Learning for Machine Learning

简介:

许多AI任务以双重形式出现,例如英语法语翻译与法语英语翻译,语音识别与语音合成,问题解答与问题生成,图像分类与图像生成。虽然结构对偶性在AI中很常见,但大多数学习算法并未在学习/推理中利用它。双重学习是一种新的学习框架,它利用AI任务的原始-双重结构来获取有效的反馈或正则化信号,从而增强学习/推理过程。双重学习已在不同的学习环境中进行了研究,并应用于不同的应用程序。 在本教程中,我们将对双重学习进行介绍,它由三部分组成。在第一部分中,我们将介绍双重半监督学习,并展示如何有效地一起利用标记和未标记的数据。我们将从神经机器翻译开始,然后转移到其他应用程序。在第二部分中,我们介绍了双重无监督学习,其中的培训是完全无监督的。我们介绍了无监督机器翻译和无监督图像翻译。最后,我们介绍了双重监督学习及其以外的内容,其中包括双重监督学习,双重推理和双重对抗性学习。在本教程的最后,我们提出了双重学习的几个未来方向。

作者介绍:

Tao Qin博士是Microsoft Research Asia机器学习小组的高级首席研究经理。 他的研究兴趣包括机器学习(侧重于深度学习和强化学习),人工智能(对语言理解和计算机视觉的应用),游戏理论和多主体系统(对云计算,在线和移动广告的应用, 电子商务),信息检索和计算广告。 他拥有清华大学的博士学位和学士学位。 他是ACM和IEEE的高级会员,也是中国科学技术大学的兼职教授(博士生导师)。

大纲:

  • 动机与介绍
  • 双重半监督学习
  • 双重无监督学习
  • 双重监督学习
  • 总结与展望
成为VIP会员查看完整内容
0
17

题目: Capsule Networks for Computer Vision

报告简介: 胶囊网络提供了一种有效的方法来建模实体之间的部分对整个关系,并允许学习视点不变表示。 通过这种改进的表示学习,胶囊网络能够在多个域中实现良好的性能,而参数数量却大大减少。 最近,胶囊网络已显示出人类动作在视频中的定位,医学图像中的对象分割以及文本分类的最新结果。 本教程将提供对胶囊网络的基本了解,并且我们将讨论其在各种计算机视觉任务中的使用,例如图像分类,对象分割和活动检测。

嘉宾介绍:

Mubarak Shah,计算机科学讲座教授,UCF计算机视觉研究中心的创始主任。他的研究兴趣包括:视频监视,视觉跟踪,人类活动识别,拥挤场景的视觉分析,视频注册,无人机视频分析等。Shah博士是IEEE,AAAS,IAPR和SPIE的研究员。 2006年,他被授予飞马教授奖,这是UCF的最高奖项。他是ACM杰出的演讲者。他曾在1997-2000年担任IEEE杰出访客发言人,并于1997年获得IEEE杰出工程教育家奖。他于1999年获得了哈里斯公司的工程成就奖,并于1995、1997和2000年获得了联合国开发计划署的TOKTEN奖; 1995年和2003年授予教学激励计划奖,2003年和2009年授予研究激励奖,2005年和2006年授予百万富翁俱乐部奖,2007年授予大学杰出研究员奖,并为2005年ICCV荣誉奖。挑战问题,并在2005年ACM多媒体会议上获得最佳论文奖提名。他是视频计算国际丛书的编辑。 《机器视觉与应用》杂志主编,《 ACM计算调查》杂志副主编。他是IEEE Transactions on PAMI的副编辑,也是《国际计算机视觉视频计算杂志》特刊的特约编辑。

Rawat博士是UCF计算机视觉研究中心的助理教授。他的研究兴趣在于计算机视觉,机器学习,社交计算和多媒体的交叉领域。他于2012年至2017年在新加坡国立大学计算机学院获得计算机科学博士学位,并在该大学的多媒体分析与综合实验室与Mohan Kankanhalli教授一起工作。他的博士论文致力于利用社交媒体和相机传感器增强用户的摄影体验。它的重点是计算媒体美学和对用于摄影的社交媒体图像的分析。他于2017-2019年在UCF计算机视觉研究中心与Mubarak Shah教授进行了博士后培训。他于2009年在瓦拉纳西IIT-BHU印度理工学院获得了计算机科学与工程学士学位。在2012年夏季加入NUS之前,他曾于2009年至2012年在印度Mentor Graphics的Praveen Shukla工作。在Veloce Emulation团队工作。他是乒乓球爱好者,并且在这项运动中赢得了许多奖牌。

成为VIP会员查看完整内容
0
16

题目: Visual Recognition and Beyond

报告简介: 本教程涵盖了视觉识别研究前沿的主题。 我们将讨论来自图像和视频的实例级识别的最新进展,详细介绍视觉识别任务系列中的最新工作。 讲座涵盖了图像分类,视频分类,对象检测,动作检测,实例分割,语义分割,全景分割和姿势估计背后的方法和原理。

报告目录:

  • 目标检测与实例分割
  • 全局分割: Task and Approaches
  • 2D图像预测3D形状
  • 视频分类与检测

嘉宾介绍:

Ross Girshick,是Facebook人工智能研究(FAIR)的一名研究科学家,致力于计算机视觉和机器学习。2012年,他在Pedro Felzenszwalb的指导下获得了芝加哥大学的计算机科学博士学位。加入FAIR之前,罗斯曾在微软研究院(Microsoft Research)、雷德蒙(Redmond)和加州大学伯克利分校(University of California, Berkeley)做研究员,他的兴趣包括实例级别的对象理解和将自然语言处理与计算机视觉相结合的视觉推理挑战。他获得了2017年PAMI青年研究员奖,并以开发R-CNN(基于区域的卷积神经网络)方法来检测对象而闻名。2017年,还凭借《面具R-CNN》在ICCV获得马尔奖。

Justin Johnson,斯坦福大学博士,导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面,涉及到视觉推理、视觉和语言,以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始,我将加入密歇根大学计算机科学与工程专业,担任助理教授。Johnson在2018年夏天完成博士学位,其博士论文组成式视觉智能《Compositional visual intelligence》,195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究,是组合式视觉智能的代表性研究工作。

成为VIP会员查看完整内容
0
21
小贴士
相关VIP内容
相关论文
Sicheng Zhao,Shangfei Wang,Mohammad Soleymani,Dhiraj Joshi,Qiang Ji
8+阅读 · 2019年10月3日
Associatively Segmenting Instances and Semantics in Point Clouds
Xinlong Wang,Shu Liu,Xiaoyong Shen,Chunhua Shen,Jiaya Jia
4+阅读 · 2019年2月28日
3D Face Modeling from Diverse Raw Scan Data
Feng Liu,Tran Luan,Xiaoming Liu
5+阅读 · 2019年2月13日
Xuesong Li,Jose E Guivant,Ngaiming Kwok,Yongzhi Xu
7+阅读 · 2019年1月24日
Ayush Tewari,Florian Bernard,Pablo Garrido,Gaurav Bharaj,Mohamed Elgharib,Hans-Peter Seidel,Patrick Pérez,Michael Zollhöfer,Christian Theobalt
5+阅读 · 2018年12月18日
Bo-Jian Hou,Zhi-Hua Zhou
18+阅读 · 2018年10月25日
PPF-FoldNet: Unsupervised Learning of Rotation Invariant 3D Local Descriptors
Haowen Deng,Tolga Birdal,Slobodan Ilic
8+阅读 · 2018年8月30日
Jiaxuan You,Rex Ying,Xiang Ren,William L. Hamilton,Jure Leskovec
6+阅读 · 2018年2月24日
Anand Gupta,Hardeo Thakur,Ritvik Shrivastava,Pulkit Kumar,Sreyashi Nag
3+阅读 · 2017年11月25日
Top