题目: The History Began from AlexNet: A Comprehensive Survey on Deep Learning Approaches

简介:

近年来,深度学习在各个应用领域都取得了巨大的成功。这一新的机器学习领域发展迅速,已经应用到大多数传统的应用领域,以及一些提供更多机会的新领域。基于不同的学习类别,提出了不同的学习方法,包括监督学习、半监督学习和非监督学习。当与传统的机器学习方法在图像理、计算机视觉、语音识别、机器翻译、艺术、医学成像、医疗信息处理、机器人控制、生物信息学、自然语言处理(NLP),网络安全等相比,实验结果表明了使用深度学习最先进的性能。

本报告从深度神经网络(DNN)开始,简要介绍了DL领域的研究进展。调查涵盖了卷积神经网络(CNN)、递归神经网络(RNN),包括长短时记忆(LSTM)和门控递归单元(GRU)、自动编码器(AE)、深度信念网络(DBN)、生成对抗网络(GAN)和深度强化学习(DRL)。此外,我们还介绍了最新的发展,例如基于这些DL方法的高级DL变体技术。本研究考虑了2012年以后发表的关于深度学习历史开始的大部分论文。此外,在不同的应用领域中探索和评估过的DL方法也包括在本次调查中。我们还包括最近开发的用于实现和评估深度学习方法的框架、sdk和基准数据集。有一些关于使用神经网络进行深度学习的调查和关于RL的调查已经发表。然而,这些论文并没有讨论用于训练大规模深度学习模型的个别先进技术和最近发展起来的生成模型方法。

作者简介:

Md Zahangir Alom博士是美国俄亥俄州代顿大学的研究工程师。他分别于2008年和2012年获得了孟加拉国拉杰沙伊大学(University of Rajshahi)和韩国全北国立大学(Chonbuk National University)的计算机工程学士和硕士学位。2018年,他获得了戴顿大学电子和计算机工程博士学位。他的研究兴趣包括机器学习、深度学习、医学成像和计算病理学。他是IEEE学生会员,国际神经网络协会(INNS)会员,美国数字病理学协会(DPA)会员。

Tarek M. Taha博士是代顿大学(University of Dayton)电子和计算机工程教授。他的研究兴趣是神经形态计算和高性能计算。Tarek M. Taha博士是美国国家科学基金会职业奖的获得者。

成为VIP会员查看完整内容
14+
0+

相关内容

Md Zahangir Alom博士是美国俄亥俄州代顿大学的研究工程师。他分别于2008年和2012年获得了孟加拉国拉杰沙伊大学(University of Rajshahi)和韩国全北国立大学(Chonbuk National University)的计算机工程学士和硕士学位。2018年,他获得了戴顿大学电子和计算机工程博士学位。他的研究兴趣包括机器学习、深度学习、医学成像和计算病理学。他是IEEE学生会员,国际神经网络协会(INNS)会员,美国数字病理学协会(DPA)会员。

论文题目: A Survey of Deep Learning-based Object Detection

论文摘要: 目标检测是计算机视觉中最重要和最具挑战性的分支之一,它已广泛应用于人们的生活中,例如监视安全性,自动驾驶等。随着用于检测任务的深度学习网络的迅速发展,对象检测器的性能得到了极大的提高。为了深入地了解目标检测的主要发展状况,在本次调查中,我们首先分析了现有典型检测模型的方法并描述了基准数据集。之后,我们以系统的方式全面概述了各种目标检测方法,涵盖了一级和二级检测器。此外,我们列出了传统和新的应用程序。还分析了对象检测的一些代表性分支。最后,我们讨论了利用这些对象检测方法来构建有效且高效的系统的体系结构,并指出了一组发展趋势,以更好地遵循最新的算法和进一步的研究。

作者介绍: Licheng Jiao 1982年获得中国上海交通大学博士学位,并分别于1984年和1990年获得西安交通大学的博士学位。 1990年至1991年,他是西安电子科技大学雷达信号处理国家重点实验室的博士后研究员。自1992年以来,焦博士一直是中国西安电子科技大学电子工程学院的教授,目前是电子工程学院的院长,也是智能感知与图像理解重点实验室的主任。 西安电子科技大学中国教育部 1992年,焦博士获得了青年科学技术奖。 1996年,他获得了中国教育部跨世纪专家基金的资助。 从1996年起,他被选为“中国第一级人才计划”的成员。2006年,他被霍英东教育基金会授予高中青年教师奖一等奖。 从2006年起,他被选为陕西省特别贡献专家。

成为VIP会员查看完整内容
4+
0+

报告主题: 模仿学习前沿进展

报告摘要: 时空跟踪和传感数据的不断发展,现在使得在广泛的领域中对细粒度的行为进行分析和建模成为可能。例如,现在正在收集每场NBA篮球比赛的跟踪数据,其中包括球员,裁判和以25 Hz跟踪的球,以及带有注释的比赛事件,如传球,射门和犯规。其他设置包括实验动物,公共场所的人员,设置诸如手术室,演员讲话和表演的演员,虚拟环境中的数字化身,自然现象(如空气动力学)以及其他计算系统的行为等专业人员。 在本演讲中,我将描述正在进行的研究,这些研究正在开发结构化模仿学习方法,以开发细粒度行为的预测模型。模仿学习是机器学习的一个分支,它处理模仿模仿的动态行为的学习。结构化模仿学习涉及施加严格的数学领域知识,这些知识可以(有时被证明)可以加速学习,并且还可以带来附带利益(例如Lyapunov稳定性或政策行为的可解释性)。我将提供基本问题设置的高级概述,以及对实验动物,专业运动,语音动画和昂贵的计算神谕进行建模的特定项目。

嘉宾介绍: Yisong Yue,博士,是加州理工学院计算与数学科学系的助理教授。他以前是迪斯尼研究院的研究科学家。在此之前,他是卡耐基梅隆大学机器学习系和iLab的博士后研究员。 Yisong的研究兴趣主要在于统计机器学习的理论和应用。他对开发用于交互式机器学习和结构化机器学习的新颖方法特别感兴趣。过去,他的研究已应用于信息检索,推荐系统,文本分类,从丰富的用户界面中学习,分析隐式人类反馈,临床治疗,辅导系统,数据驱动的动画,行为分析,运动分析,实验设计科学,优化学习,机器人技术政策学习以及自适应计划和分配问题。

成为VIP会员查看完整内容
10+
0+

报告嘉宾:金连文(华南理工大学)

报告时间:2019年10月16日(星期三)晚上20:00(北京时间)

报告题目:浅谈文字识别:新思考、新挑战及新机遇

报告人简介:

金连文教授1991年本科毕业于中国科技大学,1996年于华南理工大学获博士学位,目前为华南理工大学二级教授,博士生导师,兼任中国图像图形学学会(CSIG)常务理事、广东省图像图形学会副理事长、CSIG文档图像分析与识别专委会主任、CSIG机器视觉专委会常务委员、CAAI模式识别专委会常务委员、CCF计算机视觉专委会委员等职。主要研究领域为深度学习、机器学习、文字识别、计算机视觉及应用等,在IEEE TPAIMI、IEEE TNNLS、IEEE TIFS、IEEE TMM、IEEE TCSVT、IEEE TCYB、IEEE TITS、IEEE TAFFC、Pattern Recognition、Information Science、Neurocomputing等主流国际期刊上发表学术论文60余篇(其中4篇论文先后入选ESI高被引论文),在ICDAR、CVPR、AAAI、IJCAI等主流国际会议发表论文100余篇,获得发明专利授权50余项,荣获省部级科技奖励5次,荣获国际学术竞赛第一名11次。

个人主页:

http://www.dlvc-lab.net/lianwen/

报告摘要:

文字识别技术在图像理解、信息录入、智慧教育、智慧金融、信息搜索、信息安全等诸多领域有非常广阔的应用前景,是目前计算机视觉及机器学习领域的研究热点问题之一。基于深度学习的文字识别技术近年来取得了极大进步及发展,虽然不少方法在许多复杂场景及各种数据集上取得了卓越性能,但仍存在不少问题及挑战。在此报告中,我将在简要回顾近期研究进展的基础上,对目前文字识别领域存在的一些重要问题及挑战谈一点个人的思考,并对未来发展方向进行讨论和展望。

参考文献:

[1] Zecheng Xie, Yiaoxiong Huang, Yuanzhi Zhu, Lianwen Jin, Yuliang Liu, Lele Xie, Aggregation Cross-Entropy for Sequence Recognition, CVPR 2019.

[2] Yuliang Liu, Lianwen Jin, Zecheng Xie, Canjie Luo, et al., Tightness-aware Evaluation Protocol for Scene Text Detection, CVPR 2019.

[3] Yuliang Liu, Sheng Zhang, Lianwen Jin, et al., Omnidirectional Scene Text Detection with Sequential-free Box Discretization, IJCAI 2019.

[4] Lele Xie, Yuliang Liu, Lianwen Jin, Zecheng Xie, DeRPN: Taking a further step toward more general object detection, AAAI 2019.

[5] Canjie Luo, Lianwen Jin, Zenghui Sun, MORAN: A Multi-Object Rectified Attention Network for Scene Text Recognition, Pattern Recognition, vol. 90, no.6, pp109-118, 2019.

成为VIP会员查看完整内容
20191017-浅谈文字识别:新观察、新思考、新机遇.pdf
5+
0+

题目: Visual Recognition and Beyond

报告简介: 本教程涵盖了视觉识别研究前沿的主题。 我们将讨论来自图像和视频的实例级识别的最新进展,详细介绍视觉识别任务系列中的最新工作。 讲座涵盖了图像分类,视频分类,对象检测,动作检测,实例分割,语义分割,全景分割和姿势估计背后的方法和原理。

报告目录:

  • 目标检测与实例分割
  • 全局分割: Task and Approaches
  • 2D图像预测3D形状
  • 视频分类与检测

嘉宾介绍:

Ross Girshick,是Facebook人工智能研究(FAIR)的一名研究科学家,致力于计算机视觉和机器学习。2012年,他在Pedro Felzenszwalb的指导下获得了芝加哥大学的计算机科学博士学位。加入FAIR之前,罗斯曾在微软研究院(Microsoft Research)、雷德蒙(Redmond)和加州大学伯克利分校(University of California, Berkeley)做研究员,他的兴趣包括实例级别的对象理解和将自然语言处理与计算机视觉相结合的视觉推理挑战。他获得了2017年PAMI青年研究员奖,并以开发R-CNN(基于区域的卷积神经网络)方法来检测对象而闻名。2017年,还凭借《面具R-CNN》在ICCV获得马尔奖。

Justin Johnson,斯坦福大学博士,导师是计算机视觉领域顶级学者李飞飞博士。研究兴趣包括计算机视觉和机器学习方面,涉及到视觉推理、视觉和语言,以及使用深层神经网络生成图像。Johnson目前是Facebook AI Research的研究科学家。从2019年秋季开始,我将加入密歇根大学计算机科学与工程专业,担任助理教授。Johnson在2018年夏天完成博士学位,其博士论文组成式视觉智能《Compositional visual intelligence》,195页详述采用组合式学习的方法对计算机视觉中图像描述、视觉问答、文本图像生成三方面的问题进行了研究,是组合式视觉智能的代表性研究工作。

成为VIP会员查看完整内容
3+
0+
Top