文字识别刷新世界纪录，海康威视浦世亮新智元“AI春节”解密安防大数据

文字识别刷新世界纪录，海康威视浦世亮新智元“AI春节”解密安防大数据 | 新智元峰会演讲

2017 年 3 月 30 日 新智元

新智元报道

【新智元导读】在3月27日举行的中国“AI春节”——2017新智元开源·生态AI技术峰会上，海康威视研究院院长浦世亮发表演讲《安防大数据驱动下的智慧生活》，介绍海康在智能+安防领域的技术探索。海康威视是全球视频监控No.1，近年来布局安全视频监控发展，物联网以及视频大数据和智能视频分析，产业表现强劲，在以 ImageNet 为代表的国际技术竞赛中也一直都有抢眼的成绩。

演讲中，浦世亮介绍了应对安防大数据三大挑战，以及海康威视的应对之道：挖掘无标签数据中的隐藏信息做额外反馈，化解标记数据成本高的问题；多传感器融合，应对复杂场景感知问题；使用线上增量学习，弥补前端设备计算力的差距。

日前，海康威视研究院预研团队基于深度学习技术的 OCR（Optical Character Recognition，图像中文字识别）技术，刷新了 ICDAR Robust Reading 竞赛数据集的全球最好成绩，并在“互联网图像文字”、“对焦自然场景文字”和“随拍自然场景文字”三项挑战的文字识别（Word Recognition）任务中取得第一。

ICDAR（International Conference on Document Analysis and Recognition）全称为文档分析与识别国际会议，由国际模式识别协会（IAPR）主办。ICDAR 组织的文档分析与识别竞赛是当前 OCR 技术领域全球最具影响力的比赛，从 2003 年至今已举办 5 届。其中，ICDAR 2015 竞赛，吸引了来自 82 个国家的 2367 支队伍参加，其中包括 Google、微软、百度、三星、旷视等团队，竞赛中涌现的许多方法都对文字识别技术的发展起到了强大的推动作用。

图1：RobustReading竞赛的三项主要任务

在竞赛的三大主要任务中，待识别的文字位于复杂图像背景中，成像存在噪声、模糊、透视、倾斜以及排列随意等不利因素，字体格式种类繁多。

海康威视的OCR技术，在三项文字识别任务中均取得了世界第一，在互联网文字任务中以 5.6% 的优势超越第二名，分别在对焦自然场景文字和随拍自然场景文字任务中超越第二名 3.4% 和 3.1%。

图2：Born-Digital Images识别评测结果显示HIK_OCR排名第一。

图3：Focused Scene Text识别评测结果显示HIK_OCR排名第一

图4：Incidental Scene Text识别评测结果显示HIK_OCR排名第一

文字识别技术近年来的突破，很大程度上依赖于深度学习的发展。海康威视预研团队设计了一个数十层的卷积神经网络来完成图像的信息编码，然后使用启发式的注意力模型，实现从特征到文字的解码。

据介绍，海康威视此次专为文本识别设计的启发式机制，能够对注意力模型提取的特征进行合理性评估，使注意力模型在复杂场景中，具有强大的稳定性。借助先进的OCR技术，海康威视的文字识别系统能够应对更为复杂文字识别场景，如污损及模糊、背景干扰及形变、恶劣天气等。

图5：海康威视文字识别技术原理示意

目前，基于全新OCR技术的海康威视车牌识别系统已经覆盖全球六十余个国家和地区。基于车牌识别技术的卡口、电子警察、出入口控制、停车系统等应用也已经全面铺开。

图6：通用车牌识别的典型应用场景

据介绍，此次竞赛成果还可以应用到机器视觉领域的标签表单识别、民生领域的卡证执照识别、互联网领域的恶意图片识别、汽车辅助驾驶领域的路牌识别、城市管理领域的横幅标语和街景识别等产品中，大幅提升产品性能与应用效果。

智能产业龙头企业亮相新智元“AI春节”

海康威视是中国上市公司里最货真价实的人工智能公司之一，现在已经做到了全球视频监控的第一。近年来，结合安防行业的智能化转型浪潮，海康威视布局安全视频监控发展，物联网以及视频大数据和智能视频分析，并且取得了商业回报。

强大市场实力的背后无疑是核心技术的支撑，除了上文所说的 ICDAR，海康威视在以 ImageNet 竞赛为代表的国际技术竞赛中一直都有亮眼的成绩，是中国人工智能技术界和产业界都关注的玩家。

3 月 27 日举行的新智元开源·生态AI技术峰会邀请到了海康威视首席专家、研究院院长浦世亮作为嘉宾，介绍海康在智慧城市安防行业的智能+现状。

浦世亮是法国国家科学研究院（CNRS）博士，浙江大学理学博士，负责海康威视在人工智能及大数据领域的技术研究。浦世亮带领研究院研发的Smart 265编码技术、目标结构化算法、车牌识别算法、人脸识别算法、视频检索引擎、多传感器融合等技术，被广泛应用于公共安全、金融、交通、司法、零售、智慧城市等多个领域。

在新智元“327”技术峰会上，浦世亮发表题为《安防大数据驱动下的智慧生活》的演讲，介绍了智能设备的挑战以及海康威视的应对之道。

以下为浦世亮博士的演讲。

浦世亮：谢谢杨静，谢谢新智元，今天非常荣幸有机会与大家分享海康威视在人工智能领域的一些观点。我演讲的题目是《安防大数据驱动下的智慧生活》。下面我会与大家分享我们在应用安防大数据上所做的努力，以及在智慧生活方面所做的探索。演讲的副标题是“From Real World To Real World”。现在，人工智能设备是被数据驱动的，我们也思考了我们拥有的数据，安防摄像机有真实性也具有实时性。

视觉传感器无处不在，包括摄像机、无人机、汽车电子、还有机器人。在很多智能硬件中，视觉传感器是最重要的感知手段。当智能硬件每天开机之后，需要面对一个纷扰复杂的世界。如何让视觉传感器更好地感知我们的世界，更好地服务我们的智慧生活，是海康威视的研究的重要命题。

智能应用关键：找到数据量小的大数据入口

刚才阿里巴巴的华先胜博士也提到，全球摄像机的出货量非常大，具体有多少？跟大家分享一组市场调研报告，根据 IHS 关于全球安防摄像机出货量的报告及预测，今年全球安防摄像机的出货量将达到1.3亿台，而且在未来几年还将持续高速增长，预计到2020年，全球出货量将达到将近2亿台。安防摄像机的装机量越来越大，使得安防系统成为一个非常好的视频数据入口。除了视频数据以外，我们的安防系统也会接入许多其它种类繁多的传感器，例如门禁、烟感、雷达等。这些接入安防系统的大数据形成肥沃的土壤，可以生长出很多智慧生活的应用。

数据质量对现在的人工智能技术非常重要，因为现阶段的深度学习依旧被数据所驱动。我们也做了很多实验来考察数据对于人工智能最终应用的性能会有怎样的影响。我们列出两个测试结果，一是在人脸检测上的测试结果，另外一个是在行人检索上的结果。人脸检测就是对视频图像中的人脸进行检测和定位，而行人检索是对跨摄像机的行为进行多视频的关联检索。一方面我们在互联网上采集海量数据进行训练，另一方面我们也用安防数据进行训练。

可以看到，在算法一致的情况下，实验的结果显示，当数据样本非常少的时候，算法的性能可以获得极大的优化。我们认为在智慧生活中各种应用的尝试最重要的是找到数据量比较小的大数据入口。

应对安防大数据三大挑战，海康威视有独门秘籍

同时，安防摄像机所拍摄的数据具有真实性和实时性两大优点。因此，安防大数据可以很好驱动智慧生活的应用。然而在实际的应用中我们会面临很多的挑战，主要有以下三个：第一，海量数据与数据标记成本之间的矛盾；第二，复杂场景和有限的感知能力之间的矛盾；第三，神经网络和巨大的实施成本（有限的计算资源）之间的矛盾。接下来对这三点进行详细的介绍，并且介绍我们的应对措施。

挖掘无标签数据中的隐藏信息做额外反馈，化解标记数据成本高的问题

首先，海量数据与数据标记之间的对比。海康威视在全国有很多的联合实验室，我们拥有非常大的数据入口。我们建立了庞大的数据标注团队，每天会产生源源不断的标注数据。算法性能基于这种数据有极大的提升。但是，我们所能标注的数据只是所获取的数据的冰山一角，大量的数据还沉在水面之下。如何有效地利用这些数据，让我们的算法进一步提升？这是我们一直在研究的课题。

当然，目前学术界最直接的做法就是无监督学习，也有非常有价值的方法，例如深层对话网络。但是现阶段，我们认为在大部分的应用场景下，无监督学习还是比不上有监督学习，刚才华博士也提到车牌识别中的一些深层对抗网络实验。在数据样本非常少的情况下的确可以运用深层对抗网络提升算法性能。但是很多场景下，无监督学习性能比不上有监督学习。

如何充分挖掘无标签数据中的信息？在训练中，我们用这些隐藏在无标签数据背后的信息做额外的信息反馈，包括特征提取模型的反馈，对标签预测模型的反馈和对损失函数的反馈。举个例子，假设我们在安防场景抓拍了很多人脸，并没有对这些人脸做逐一的标记，但是可能会获取抓拍场景信息，获取抓拍人群信息。当我们把这些额外的信息和标注信息进行融合训练时，可以极大地提升算法的泛化能力。

多传感器融合，应对复杂场景感知问题

第二个矛盾来自复杂场景与设备感知能力的矛盾。我们的智能硬件需要应对实际生活中复杂纷扰的环境。以摄像机为例，需要在各种恶劣的气侯条件下7×24小时工作。因此，在恶劣条件下形成的成像效果极大地影响后续人工智能算法的效果。如何解决这个问题？现在工业界有一个趋势：随着微电子工艺水平的上升，各类传感器的成本、功耗、体积都呈下降趋势，这也为产品上进行播散式融合提供了条件。多传感器的融合有很多种方式，以海康威视的黑光相机为例，黑光相机是可见光和红外光相融合的产品，可以在380纳米到1000纳米的超宽光谱下进行成像，并且在超低光线下同时获得色彩信息和亮度信息。

相比星光相机，黑光相机无论在亮度、色彩、还原度、细节的支撑度上都有极大的提升。因此，我们认为，多传感器的融合可以很好地解决复杂环境下的感知问题。

使用线上增量学习，弥补前端设备计算力的差距

第三个矛盾是复杂模型和运算能力之间的矛盾。在实际生活中，为了应对各种应用场景，我们需要设计非常复杂的算法模型。但是设备尤其是前端设备的计算能力十分有限，就形成了复杂模型跟计算能力之间的矛盾。比如，我们的算法工程师设计了一套上百层的网络的算法，性能非常不错，但一算这个产品成本、功耗等，就发现实际应用很难。为了解决这个问题，我们构建了线上增量学习的方式。所谓线上增量学习，就是用各类场景下的数据训练一个复杂的通用模型。我们用前端采集设备采集数据，并对这些数据进行一定的难例标注，送到半监督学习框架内。半监督学习框架会基于我们的通用模型，针对场景做模型优化，同时进行裁剪和压缩，最终线上上传到我们的前端设备上。通过这种手段，我们可以在比较有限的计算资源下实现算法，并针对特定场景提升性能。

以上介绍了针对三种挑战的应对方法，海康威视在过去几年基于安防大数据发布一系列集成深度学习的产品，包括前端摄像机、后端服务器和门禁类产品。在这里挑选两款摄像机做一个介绍。第一款是人脸识别摄像机，过去几年人脸识别技术有很多应用场景，在这些应用场景中，安防场景可能是最复杂的场景，因为它需要适应各种光照条件、准假设条件和各种角度。人脸识别相机是多传感器融合的产品，融合了深度传感器、可见光传感器，并集成检测人脸识别的算法。摄像机通过人脸检测的反馈信息，实时调整摄像机的成像参数，从而生成最清晰的人脸图象，用深度传感器获取人脸姿态，并进行实时评估，最终挑选最优的人脸图象进行识别。这款相机把检测和识别同时放在里面。

另一个产品，全局摄像机。安防产品的甲方需要同时关注全局信息和目标的细节信息，就像视频中的出入口，我们需要关注出入口的全局信息，同时希望得到每一个出入目标的细节。我们的全局摄像机将高清的广角摄像机与跟踪相机相融合。广角的高清摄像机拍摄全局图象，跟踪相机对目标进行跟踪。人工智能技术进行全局检测，驱动跟踪相机对目标进行拉伸，跟踪获得目标的细节图象，最后用分类网络获取多达几十种的属性信息，例如目标的年龄、性别、穿着、是否戴眼镜等。

海康威视利用安防大数据进化了人工智能的能力，在智慧城市中做了很多探索。在智能制造领域开发了阡陌搬运机器人，可以在产业线中自动搬运物料。目前，搬运机器人已经上线六百多台，实现完自动物料搬运；在安防领域实现行人的人脸实时抓拍，在多个城市平台项目中帮助公安干警定位了几百个在逃人员。同时可以将结构化相机用于商业系统，提取客流量、顾客的身高、年龄、穿着等，利用这些信息帮助连锁商业客户进行商业大数据分析。我们的系统也可以实时获取各类路况信息，包括违章事件、车辆结构化信息，同时可以用无人机对违章车辆进行跟踪抓拍；我们还开发了自动泊车系统，有了这套系统，寻找车位、寻找爱车包括倒车入库等都不再是困扰。

以上分享了海康威视在智慧城市中的部分探索，我们希望利用安防大数据来驱动智慧生活，用我们的感知技术让城市变得更加智能。

谢谢大家！