基于深度学习神经网络的图像识别及声纹识别系统

基于深度学习神经网络的图像识别及声纹识别系统

前言

深度学习是当今人工智能领域的核心技术,基于深度学习的技术的应用和推广,如今图像识别,声纹识别及自然语言处理得到了飞速的发展和广泛的应用。

深度学习的概念

深度学习是基于神经网络的技术,神经网络又分为CNN、RNN、DNN。

RNN主要应用在自然语言处理,自然语言处理,包括识别文本,智能问答等,DNN主要应用在个性化推荐,根据您在网络浏览搜索的内容,推荐您可能感兴趣的东西,CNN主要应用在图像识别及声纹识别的领域和技术中。

CNN、RNN、DNN区别

卷积神经网络

卷积神经网络


卷积公式
y(t)=f(t)∗g(t)=∫∞−∞f(u)g(t−u)duy(t)=f(t)∗g(t)=∫−∞∞f(u)g(t−u)du
它是通过两个函数 f(t) 和 g(t) 来生成第三个函数的一种数学算子。从负无穷到正无穷遍历全部 u 值,把 g(t-u) 的值乘以 f(u) 的值之后再进行累加,得到关于该累加操作的关于 t 的函数。从另一个角度看,卷积就是一种加权求和。


卷积神经网络概念与原理


卷积神经网络与普通神经网络的区别在于,卷积神经网络包含了一个由卷积层和子采样层构成的特征抽取器。在卷积神经网络的卷积层中,一个神经元只与部分邻层神经元连接。在CNN的一个卷积层中,通常包含若干个特征平面(featureMap),每个特征平面由一些矩形排列的的神经元组成,同一特征平面的神经元共享权值,这里共享的权值就是卷积核。卷积核一般以随机小数矩阵的形式初始化,在网络的训练过程中卷积核将学习得到合理的权值。共享权值(卷积核)带来的直接好处是减少网络各层之间的连接,同时又降低了过拟合的风险。子采样也叫做池化(pooling),通常有均值子采样(mean pooling)和最大值子采样(max pooling)两种形式。子采样可以看作一种特殊的卷积过程。卷积和子采样大大简化了模型复杂度,减少了模型的参数。

基于深度学习的图像识别原理

首先,我们要拿一些样本,然后对这些样本,进行数据标注,数据标注是为后面的数据建模而服务的。

教会小旺财认识什么是电吉他?https://www.zhihu.com/video/1205567313543589888

数据标注的过程就相当于我告诉小旺这个是什么,有什么细节特点,当然实际数据标注过程中要用大量的数据。

它学习后就能分辨吉他产地及型号https://www.zhihu.com/video/1205568305072828416

通过一定量的已标注的数据,来在小旺财的大脑中建立模型,建立好模型之后,再遇到相似的图像时,小旺就会把这些图片跟建好的模型相对比,通过相似度,来确认这些图形是什么?

(当然,建立模型的过程中,要大量的数据,而并非数据量越大,模型就越准确的,都是有一个过犹不及的度。)

声纹识别也是同样用到了图像识别的技术,图像识别和声纹识别虽然说是两个不同的方向,但是声纹识别的核心技术就是将声音转换成波谱图,再根据波谱图进行图像识别来确认声音的特征。

总结

基于深度学习的图像识别技术现在已经广泛应用在各行各业,发挥着巨大的作用,如人脸识别,卡证识别,车牌识别,包括图像的文字识别及图文转化。

我们绑定银行卡,只需给银行卡拍个照就课识别卡号;我们在超市支付购物费用时,也可以刷脸支付。基于深度学习神经网络的图像识别技术为当今人们的生活提供了便利、方便、快捷的服务及应用。

发布于 2020-01-28 19:55