深度学习——CNN

前言

前言前言畅所欲言,纪念一下刚刚投稿就撤稿然后在投稿的一天,虽然是第一次投稿,但是还是觉得投错期刊这样的重大实误,应该是注定跟科研无缘了,太惨了。

Introduction

CNN(Cable News Network,美国有线电视新闻网)在报道2009年7月5日发生在新疆乌鲁木齐的“打、砸、抢”事件时,严重歪曲事实,误导新闻受众,抹黑中国形象。CNN的恶行严重危害中国国家安定和13亿中国人的尊严。

哦哦搞错了(以上刚刚百度),今天应该要介绍的是CNN(卷积神经网络),CNN的本质也是函数。丢入一个输入,经过CNN (函数),得到一个输出,不过唯一的问题就是CNN这个函数还未被攻克,这个函数是什么?他到底学了什么特征?为什么会学习这个特征?尽管已经有很多专家在CNN的interpretability问题上,取得了很多的成果,但离攻克还是有很大很大的距离。

聊CNN之前还得聊一下DNN网络。首先大家应该都知道DNN作为一个函数,可以进行预测,且在很多项目上取得了很好的效果[参考文献略,主要是没看], 大家都知道卷积神经网络常常应用于图像之中,而不用DNN,主要原因是DNN的效果差。这里就有了第一个问题。

为什么DNN在其他的预测可以做的很好在图像的预测却做的很差?

图像输入与普通输入不同(CNN做图像识别,大概原理就是图像看作是数字矩阵,数字丢到函数里面求输出值),图像输入它是一种数字矩阵,而一般的输入只能是一串数字列向量。所以在图像中提取特征的话,用方形状卷积核提取特征会好一点,因为他可以提取局部特征,DNN的卷积核可以看成是列形状的卷积核。简单理解就是一幅图像的特征很难在一条列向量中体现。

CNN的框架发展

2012年Alexnet取得imagenet(图像分类比赛)冠军之后,CNN就开始策马奔腾了。接下来的冠军模型均为CNN模型。

2013年Clarifai

2014年VGG(当年第一)[1],Googlenet(又名inception)惜败从名字可以看出来了,嗯,百度公司的

2015年ResNet(何凯明)[2]

2016年Trimps-Soushen

2017年SENet,同年CVPR最佳论文densenet(何凯明)

上述网络就不介绍了。

这里大家可能有一个误区就是越往后的网络模型越复杂,网络参数越多。其实不是这样的,虽然改进都是基于前人的模型进行的改进,模型也是越往后越复杂,但是在参数上很多的模型反而得到减少。借一个图大概是这样,圆圈越大占用内存越大,参数越多,可以看到VGG又大,准确率又不高,但是他是层数反而是网络层数较浅的且比较简单的模型。

CNN的应用方向

图像识别做到一定程度的时候就衍生了新的方向比如说目标检测,何凯明又是一堆文章〔rcnn,fast-rcnn,faste-rrcnn,mask-rcnn,最近的图像渲染〕〔YOLO〕,当然也有人想着万物皆可图像识别,便衍生了利用图像解决声音识别的问题。

总结

总得来说还是希望CNN这个函数可以早日攻克:)

对了文章周更.

[1]Simonyan K, Zisserman A. Very deep convolutional networks for large-scale image recognition[J]. arXiv preprint arXiv:1409.1556, 2014.

[2]He K, Zhang X, Ren S, et al. Deep residual learning for image recognition[C] Proceedings of the IEEE conference on computer vision and pattern recognition. 2016: 770-778.

[3]Huang G, Liu Z, Van Der Maaten L, et al. Densely connected convolutional networks[C] Proceedings of the IEEE conference on computer vision and pattern recognition. 2017: 4700-4708.

编辑于 2020-01-14 20:32