专知《深度学习:算法到实战》1月8号开课!322位同学在学习!网易云课堂人工智能畅销榜首位!

1 月 2 日 专知

深度学习鼻祖Geoffrey Hinton前两天在接受《连线》专访时说,不会再有AI寒冬了,AI已经在你手机里了。吴恩达关注斯坦福刚发布的AI指数报告谈到, 人才需求两年暴增35倍。 是的,你也感受到AI在周围(刷脸、下棋、无人车、看病、教育…), 人工智能是未来 !中国在AI领域的人才需求是百万级的!我们需要更多专业的AI人才!而专知希望做一点贡献。为此,经过一年多的精心打磨准备,专知背靠中科院自动化所模式识别国家重点实验室,隆重推出《深度学习: 算法到实战》,一线教授博士带你学习深度学习的基础算法和应用实例,欢迎加入学习!



现在已有322位同学加入学习,并登陆网易云课堂深度学习畅销榜首位!

感兴趣的同学请扫码或者点击文章末尾“阅读原文”,加入学习!



专知团队


我们是专知,提供专业可信的人工智能知识分发服务,让认知协作更快更好!专知团队背靠中国科学院自动化研究所,团队成员全部来自中科院自动化所模式识别国家重点实验室。专知,包括专知网站平台www.zhuanzhi.ai和专知公众号,有关注使用用户5万多,累计阅读用户数超过180万人次,累计阅读量360万次专知荣获中国多媒体大会2018年前沿技术杰出展示奖


本次课程由专知团队携人工智能领域一线教授博士精心制作,重磅推出!这是一次毫无保留的传授与交流,人工智能未来已来,学习永不止步。希望能与各位一起迎接2019,共同成长。


深度学习:从算法到实战
课程简介

深度学习-从算法到实战,涵盖深度学习算法和应用实例,算法包括DNN、CNN、RNN/LSTM、GAN及强化学习等,应用实例包括计算机视觉的目标检测、图像生成,自然语言处理的文本自动摘要等,帮助学员了解、理解、掌握深度学习的基础和前沿算法,并拥有深度学习算法实战技能。

面向人群

在校大学生、研究生;人工智能领域工程师、研发人员;跨领域转AI从业者;工业、教育、医疗等行业+AI的人员,对深度学习人工智能感兴趣的用户!

课程特色

由完整全面、脉络清晰的深度学习核心算法入门,到当前学界、工业界热门的深度学习应用实战,有效提高学生解决实际问题的能力。

学习收益
  • 掌握深度学习核心算法技术

  • 掌握面向不用场景任务的深度学习应用技术

  • 熟悉各种不同深度神经网络的拓扑结构及应用

  • 熟悉前沿深度学习强化学习等热点技术,把握深度学习的技术发展趋势

  • 提升解决深度学习实际问题的能力

授课团队

超豪华讲师团队:中科院自动化所资深教授博士组成的主讲老师团队。

专知服务

问答服务:老师答疑解惑、学员互动交流。

课程资料:讲义、课件、视频、代码 。

大礼包:一百个人工智能热点主题资料大合集。



    揭开深度学习的神秘面纱,领略人工智能之美 


教学大纲

第一讲 绪论
  • 人工智能和机器学习概述

    • 人工智能历史和现状

    • 从专家系统到机器学习

  • 深度学习概述

    • 从传统机器学习到深度学习

    • 深度学习历史

    • 深度学习的能与不能


第二讲 神经网络基础
  • 浅层神经网络

    • 从生物神经元到单层感知器

    • 多层感知器

    • 反向传播和梯度消失

  • 从神经网络到深度学习

    • 逐层预训练

    • 自编码器和受限玻尔兹曼机

    • Beyond预训练


第三讲 卷积神经网络
  • 卷积神经网络绪论

    • 卷积神经网络 vs 传统神经网络

    • 卷积神经网络的基本应用

      • 图像分类 image caption

      • 图像检索 image retrieval

      • 物体检测 object detection

      • 图像分割 image segmentation

      • 图像理解 image caption

    • 应用拓展

      • 自动驾驶 self-driving

      • 人脸识别 face recognition

      • 情感识别 facial expression recognition

      • 动作识别 action recognition

      • 图像生成 image generation

      • 风格转化 style transfer

  • 基本组成结构

    • 卷积

    • 池化

    • 全连接

  • 卷积神经网络典型结构

    • AlexNet

    • ZFNet

    • VGG

    • GoogleNet

    • ResNet

  • 卷积神经网络实战(代码讲解)

  • 总结


第四讲 循环神经网络
  • 循环神经网络的应用

    • 机器翻译 machine translation

    • 语音识别 speech recognition

    • 视觉问答 visual question answering

    • 图像理解 image caption

    • 语音问答 speech question answering

  • 循环神经网络 vs 卷积神经网络

    • 技术

    • 应用场景

  • 循环神经网络的基本结构

    • 实例-智能系统

    • 多种递归结构

    • 深度RNN

    • 双向RNN

    • BPTT算法

  • 循环神经网络的模型变种

    • 传统RNN存在的问题

    • LSTM

    • Grid-LSTM

    • GRU

    • 各模型对比

  • 扩展

    • 其他解决RNN梯度消失的方法

    • 基于注意力机制的RNN (attention-based RNN)

  • 总结


第五讲 目标检测
  • 目标检测绪论

    • 概念

    • 评价准则

    • 数据集

    • 竞赛

  • 目标检测战前准备

    • 滑动窗口

    • 目标候选生成

    • 难样本挖掘

    • 非极大值抑制

    • 检测框回归

  • 目标检测:两阶段方法

    • R-CNN

    • SPP-Net

    • Fast R-CNN

    • Faster R-CNN

    • FPN

    • RFCN

  • 目标检测:单阶段方法

    • YOLO

    • SSD

    • Retina Net

  • 荟萃:目标检测方法对比

  • 10行代码实现目标检测

  • 拓展:视频中的目标检测

  • 总结


第六讲 生成对抗网络GAN基础
  • 生成式对抗网络简介

    • 背景

    • GAN案例

      • 图像生成

      • 图像超像素

      • 图像修复

      • 风格转换

      • 文字生成图片

    • GAN应用

      • 数据增广

      • 迁移学习/领域自适应

      • 无监督特征学习

      • 其他

  • 生成式对抗网络基础

    • 生成式对抗网络(Generative Adversarial Network,GAN)

      • 直观解释GAN

      • 模型和目标函数

      • 全局最优解

      • PyTorch实现

    • 条件生成式对抗网络(Conditional GAN, cGAN)

      • 直观解释cGAN

      • 模型和目标函数

      • PyTorch实现

    • 深度卷积生成式对抗网络(Deep Convolutional GAN,DCGAN)

      • 网络结构

      • PyTorch实现

    • Wasserstein GAN (WGAN)

      • JS距离缺陷

      • Wasserstein距离和Wasserstein损失

      • 模型和目标函数

      • PyTorch实现


第七讲 生成对抗网络GAN前沿与实战
  • 生成式对抗网络前沿

    • ProgressiveGAN

    • Spectral Normalization GAN

    • Self-Attention GAN

  • 生成式对抗网络实战
    以图像翻译为案例,由浅入深教你实现一个工程

    • 用GAN实现图像翻译:Pixel2Pixel

      • U-Net

      • PatchGAN

      • Instance Normalization

      • 详细的Pytorch实现

    • CycleGAN

      • Cycle-Consistent 损失

      • 详细的Pytorch实现

    • StarGAN

      • 多领域图像翻译

      • 详细的Pytorch实现


第八讲 前沿技术
  • 深度强化学习

    • 引言:强化学习相关概念、理论基础、深度强化学习的应用

    • 基于策略的方法:策略梯度法

    • 基于值的方法:Deep Q-Network

    • 两种方法的结合:Actor-Critic方法

    • 深度强化学习劝退?优势与挑战

  • 迁移学习

    • 引言:概念、定义与应用

    • 迁移学习的种类及代表性方法

    • 具化迁移学习:域自适应

    • 迁移学习展望

  • 图神经网络

    • 引言:概念与应用

    • 基于空域的图神经网络方法:以门限图递归神经网络为例

    • 基于频域的图神经网络方法:图卷积神经网络(GCN)

    • 展望

  • 深度学习可视化及解释

    • 可视化神经网路

    • 解锁黑箱模型:在路上

  • 深度学习的未来


第九讲 PyTorch入门基础
  • 如何用PyTorch完成实验?

    • 如何加载、预处理数据集?

    • 如何构建我想要的模型?

    • 如何定义损失函数、实现优化算法?

    • 如何构建对比实验(baseline)?

    • 如何迭代训练、加速计算(GPU)、存储模型?

  • 用PyTorch 实现经典模型

    • 计算机视觉经典模型实现

      • 怎么实现VGG?

      • 怎么实现GoogleNet?

      • 怎么实现ResNet?

    • 自然语言处理经典算法实现

      • 怎么实现神经网络语言模型?

      • 怎么实现Sequence to sequence + attention(含有注意力机制的序列建模)?

      • 怎么实现sequence labeling(序列标注模型)?


第十讲 PyTorch实战
  • 计算机视觉应用实战: 用PyTorch 实现实时目标检测

    • 什么是目标检测任务?

    • 目标检测的公开数据集讲解

    • 目标检测的模型讲解

    • 典型算法与实现

      • YOLO

      • SSD

  • 自然语言处理应用实战:用PyTorch 实现文本自动摘要生成

    • 什么是文本自动摘要生成任务?

    • 文本摘要生成的公开数据集讲解

    • 文本摘要生成的模型讲解

    • 典型算法与实现

      • Pointer-generator

      • Fast_abs_rl



思维导图

点击查看大图



授课团队






桑基韬 ,教授,博士生导师,北京交通大学计算机科学系副主任。中科院自动化所博士,曾在模式识别国家重点实验室工作10余年。主要研究方向为多媒体计算、网络数据挖掘、机器学习等。已出版Springer英文专著一部,发表论文70余篇。国家自然科学基金重点项目负责人,曾获得中国电子学会自然科学一等奖和北京市科学技术奖。


高君宇,中国科学院自动化研究所模式识别国家重点实验室博士。研究方向为多媒体计算、深度学习、计算机视觉等。已经在IEEE Transaction on Image Processing、ACM Multimedia、AAAI等CCF-A类推荐的顶级国际期刊、会议上以第一作者发表了5篇文章,获中国科学院大学三好学生标兵、国家奖学金等荣誉。



王贯安,中国科学院自动化研究所复杂系统管理与控制国家重点实验室博士。研究方向为深度学习、计算机视觉和图像处理等;对人工智能算法如生成对抗网络等研究深入,独立撰写GAN算法综述;在图像检索、行人再识别领域具有丰富实战经验。已在计算机视觉顶级会议ECCV等会议、期刊发表论文多篇。独立主持进行军工合作项目(图像处理方向)1项。



张飞飞,江苏大学博士,中国科学院自动化研究所模式识别国家重点实验室联合培养。研究方向为深度学习,计算机视觉和图像处理等,在任意姿态人脸表情识别领域具有丰富经验。在CVPR,ACM Multimedia, TOMM等顶级会议及期刊上以第一作者发表论文6篇,获得国家奖学金,江苏大学优秀研究生奖学金等荣誉。主持江苏省省级研究生科研创新项目1项。


张怀文,中国科学院自动化研究所模式识别国家重点实验室博士,专知算法技术负责人。主要研究多媒体数据分析、自然语言处理,已经在包括CCF-A ACM Multimedia 在内的多媒体领域多个权威会议发表论文多篇,曾获2016年PCM会议最佳论文奖,国家奖学金。带领算法团队参与研发的产业化项目专知,获得2018年中国多媒体大会多媒体前沿技术杰出展示奖。作为专知多个项目的算法负责人,为多家企业提供AI算法支持。在自然语言处理领域特别是实体、关系、事件分析与知识图谱方面经验丰富。



课程安排


【开课时间】

2019年1月8日—2019年1月24日

每周二、四、六、日晚:20:00-22:00


【上课周期】

共10次课,一次课2课时(1小时/课时),共20课时


【学习形式】

直播视频讲解 + QQ学员群交流答疑


Q & A


我是小白可以学吗?

可以的。本期课程内容由浅入深,从概念到基础的模型、算法,再到动手实战,为的就是让小白能入门,让初学者更精进,让高级学员踏入专业的门槛。


20课时能学会吗?

相信自己,有什么不可能。当然了,20课时的内容,都是各位讲师科研成果的浓缩,精华中的精华,坚持与讲师课程同步学习,主动查找资料,扩大和充实自己的知识面,勤动手实践,你会学得更好!


为什么要报这个课程?

我们知道网络上资料铺天盖地,但真正啃下来的又有多少呢?资料多了,不成系统,不成体系,对入门学习毫无益处。且现存的教材偏重理论,难以消化是其一,无人引导实战是其二。进入我们的课程同步学习,可以接受更系统的知识覆盖,以及与老师直接交流的机会。另外,自己学习很枯燥,难以坚持,在我们的社区里,有这么一群志同道合的伙伴一同学习、进步、成长,相信你会受益更多。


报名方式




> > 点击文章末尾阅读原文,直接报名 < <


现在加入,仅需499元


20课时,每课时不到25元

你收获的

是这个领域佼佼者的多年积累

是真诚的、毫无保留的分享与交流

是最前沿的算法与应用

是人工智能的精华


-点击阅读原文速速报名-

报名时间:现在

上课时间:2019年1月8日—2019年1月24日

一年内可随时观看回放


请添加专知小助手



QQ:3231298669,微信:Quan_ABT

(或扫描上方二维码)

备注:专知课程,进行咨询、购买参团、加入学员群


开启你的进阶之旅

备注:购买成功后备注网易云账户名,以便核对入群


参团享优惠



> > 点击文章末尾阅读原文,直接报名 < <

登录查看更多
点赞 0

Current work on multimodal machine translation (MMT) has suggested that the visual modality is either unnecessary or only marginally beneficial. We posit that this is a consequence of the very simple, short and repetitive sentences used in the only available dataset for the task (Multi30K), rendering the source text sufficient as context. In the general case, however, we believe that it is possible to combine visual and textual information in order to ground translations. In this paper we probe the contribution of the visual modality to state-of-the-art MMT models by conducting a systematic analysis where we partially deprive the models from source-side textual context. Our results show that under limited textual context, models are capable of leveraging the visual input to generate better translations. This contradicts the current belief that MMT models disregard the visual modality because of either the quality of the image features or the way they are integrated into the model.

点赞 0
阅读1+

Many of the recent successful methods for video object segmentation (VOS) are overly complicated, heavily rely on fine-tuning on the first frame, and/or are slow, and are hence of limited practical use. In this work, we propose FEELVOS as a simple and fast method which does not rely on fine-tuning. In order to segment a video, for each frame FEELVOS uses a semantic pixel-wise embedding together with a global and a local matching mechanism to transfer information from the first frame and from the previous frame of the video to the current frame. In contrast to previous work, our embedding is only used as an internal guidance of a convolutional network. Our novel dynamic segmentation head allows us to train the network, including the embedding, end-to-end for the multiple object segmentation task with a cross entropy loss. We achieve a new state of the art in video object segmentation without fine-tuning on the DAVIS 2017 validation set with a J&F measure of 69.1%.

点赞 0
阅读1+

In this paper, we propose to disentangle and interpret contextual effects that are encoded in a pre-trained deep neural network. We use our method to explain the gaming strategy of the alphaGo Zero model. Unlike previous studies that visualized image appearances corresponding to the network output or a neural activation only from a global perspective, our research aims to clarify how a certain input unit (dimension) collaborates with other units (dimensions) to constitute inference patterns of the neural network and thus contribute to the network output. The analysis of local contextual effects w.r.t. certain input units is of special values in real applications. Explaining the logic of the alphaGo Zero model is a typical application. In experiments, our method successfully disentangled the rationale of each move during the Go game.

点赞 0
阅读1+

Memory-based neural networks model temporal data by leveraging an ability to remember information for long periods. It is unclear, however, whether they also have an ability to perform complex relational reasoning with the information they remember. Here, we first confirm our intuitions that standard memory architectures may struggle at tasks that heavily involve an understanding of the ways in which entities are connected -- i.e., tasks involving relational reasoning. We then improve upon these deficits by using a new memory module -- a \textit{Relational Memory Core} (RMC) -- which employs multi-head dot product attention to allow memories to interact. Finally, we test the RMC on a suite of tasks that may profit from more capable relational reasoning across sequential information, and show large gains in RL domains (e.g. Mini PacMan), program evaluation, and language modeling, achieving state-of-the-art results on the WikiText-103, Project Gutenberg, and GigaWord datasets.

点赞 0
阅读1+

This paper explains why deep learning can generalize well, despite large capacity and possible algorithmic instability, nonrobustness, and sharp minima, effectively addressing an open problem in the literature. Based on our theoretical insight, this paper also proposes a family of new regularization methods. Its simplest member was empirically shown to improve base models and achieve state-of-the-art performance on MNIST and CIFAR-10 benchmarks. Moreover, this paper presents both data-dependent and data-independent generalization guarantees with improved convergence rates. Our results suggest several new open areas of research.

点赞 0
阅读1+
小贴士
Top