2017年中国计算机视觉行业研究报告

会员服务 ·

2017年中国计算机视觉行业研究报告

2017 年 12 月 7 日 艾瑞咨询 艾瑞

艾瑞咨询

微信号：iresearch-

报告：电商 | 金融 | 营销 | 医疗 | 人工智能 | 泛娱乐

榜单：网站 | APP | 影视 | 移动设备 | 网络广告

数据：行业 | 用户

2017年下半年，数家计算机视觉公司单笔融资上亿美元，再次将计算机视觉推向人工智能领域最受关注的方向之一。本报告聚焦于计算机视觉技术现阶段在工业界的应用与研发，将在对相关技术热点及产业整体做概述性介绍的基础上，对典型应用的具体使用场景分领域论述，希望理清现状，写明征途，供产业界、投资界、政策制定者及关注人工智能领域的社会各界以参考。因报告研究对象以技术层创业公司为主，偏颇遗漏之处，敬请指正。

报告核心观点：

1. 深度学习主要提升的是计算机视觉领域分类任务的准确率；开源环境仅降低计算机视觉领域的入门技术门槛，前沿算法的技术壁垒依然存在；计算机视觉比赛成绩、论文成果不直接代表技术团队解决实际业务问题的能力。

2. 2017年中国计算机视觉规模预期为40亿，凭借安防领域的爆发性增长，预期2020年将增长至725亿。

3. 前端嵌入式智能系统的渗透率将逐步提升，与后端协同智能计算，加速产业智能升级。

4. 算法迭代将不断提升限定场景识别准确率，加速渗透为各行业应用赋能。

5. 前沿算法之外，计算机视觉公司的商业壁垒有赖于产品、服务、市场等综合建设。

一、计算机视觉技术概述

计算机视觉横跨感知与认知智能，现阶段应用以感知为主

视觉使人类得以感知和理解周边的世界，人的大脑皮层大约有70%的活动在处理视觉相关信息。计算机视觉即通过电子化的方式来感知和理解影像，以达到甚至超越人类视觉智能的效果。从1966年学科建立（MIT：The SummerVision Project）至今，尽管计算机视觉在感知与认知智能方向仍有大量难以解决、尚待探索的问题，但得益于深度学习算法的成熟应用（2012年，采用深度学习架构的AlexNet模型，以超越第二名10个百分点的成绩在ImageNet竞赛中夺冠），侧重于感知智能的图像分类技术在工业界逐步实现商用价值，助力金融、安防、互联网、手机、医疗、工业等领域智能升级。

现阶段有较好商业化进展的主要为语义感知中的分类任务

与人类实时选择性处理视觉信息不同（如人在驾驶时不需在意公路边草地的纹理或形状，也不用知道每辆车的确切形状），计算机仍难以从实际需求出发自主选择性输入并计算影像信息，通常需要人类对具体任务进行分解并使用与之匹配的计算方法，建立完整理想的智能视觉系统仍有很大挑战。另外，与可结合常识做猜想和推理进而辅助识别的人类智能系统相比，现阶段的视觉技术往往仅能利用影像表层信息，缺乏常识以及对事物功能、因果、动机等深层信息的认知把握。

数据与算力是深度学习的重要支撑

日益丰富的影像内容为深度学习算法提供了大量的数据支撑。据思科公司评估，2021年单月上传至全球网络的视频总时长将超过500万年，每秒将诞生1百万分钟的网络视频内容，网络视频流量将占据全球所有网络用户流量的81.44%。需要说明的是，现在的学习多为有监督学习（需要对数据进行充分标注），而且并非所有类型的影像数据都易得易标注（比如医疗影像数据需由专业医师标注病灶），业界领先的视觉公司一般会有数百人的标注团队（多为外包，但需专业培训，实时指导）。另一方面，深度学习学习过程中的“训练”与应用部署后的“推断”均涉及大量并行计算，传统CPU算力不足，而GPU、FPGA （现场可编程门阵列）、ASIC （TPU、NPU等AI专属架构芯片）等具有良好并行计算能力的芯片可提供数十倍乃至于上百倍于CPU的性能，与云服务一起，大幅缩短计算过程（在过去，往往数周甚至数月才能跑出一次结果，然后调整模型架构，效率极低），易于短期调整多种模型架构，显著提升分类模型的进步速度。2010年以后，CPU内部晶体管数量的增长明显放缓，传统摩尔定律失效，而GPU类处理器依然保持着快速增长的势头（2016年GPU的计算力为10个TFLOP/S ，2017年达到了120个TFLOP/S ,TPU则实现了惊人的180个TFLOP/S ），验证着AI时代的摩尔定律。

开源环境仅降低计算机视觉领域的入门技术门槛

工业界和学术界先后推出了用于深度学习模型训练的开源工具和框架，包括Caffe、Theano、Torch、MXNet、TensorFlow、PaddlePaddle、CNTK等等，极大降低了人工智能技术在工业实践中的入门门槛。尽管不同框架各有所长，但它们并不能真正满足企业在处理实际复杂业务时所面对的挑战，性能、显存支持、生态系统完善性、使用效率等不同层面的不足要求企业需要针对性的调整框架以适合自身业务所需。而在数据处理、计算集群管理、网络设计、应用端性能优化等若干重要环节都存在各种各样非开源技术或已成熟方案所能解决，极度依赖相关技术专家去探索求解的重要问题。对于前沿算法的突破创新以及算法在不同使用环境中的优化升级，不同公司的技术高低差异依然很大。

计算机视觉比赛的意义在于推动算法思想的进步

2007年由李飞飞教授发起的ImageNet计划将人工智能领域的影像数据推向了前所未有的规模，至今已有1400万张经过人工清洗标注的图片，含有2万个分类，为计算机视觉领域做出巨大贡献。自2010年每年一度的ImageNet物体识别竞赛（对1000类接近50万张图片的单标签识别），更是成为了计算机视觉领域最受关注的比赛。2017年，ImageNet举行了最后一届图像分类竞赛，Top 5的错误率降至2.25%（大幅领先人眼），该竞赛完成了历史使命，而更多的关于图像语义分割（像素级的分类问题）、1:N人脸识别、图像及视频理解（看图写话）方向的数据集与比赛将逐步登上舞台，推动更多领域更贴近真实世界场景的算法革新。

二、计算机视觉行业概况

计算机视觉行业图谱

中国计算机视觉行业市场规模

2016年下半年，1：N人脸识别、视频结构化等计算机视觉相关技术在安防领域的实战场景中突破工业化红线，敲响了计算机视觉行业市场大规模爆发的前奏。伴随人脸识别、物体识别等分类、分割算法不算提升精度，在2017年占比较高的安防、视频广告、泛金融、手机及互联网娱乐领域之外，医疗影像、工业制造、批发零售等现阶段的创新领域也将逐步解锁，成为行业整体快速发展的重要支撑。

前端智能的渗透率将逐步提升，与后端协同智能计算

伴随AI专用芯片及嵌入式感知系统的成熟研发，前端设备即可完成相对基础的视觉感知，并将识别、分类的结果实时应用，实现前端智能。对于需要大量计算、存储资源，利用多维度数据关联分析的诸多场景，后端服务器计算依然是当前主流。前端智能的渗透率将逐步提升，与后端智能协同加速产业升级，不仅可满足特定场景对实时性、隐私性的要求，还可在前端成像（千万像素、千帧/秒）提供越来越多数据信息的背景下，让前端智能选择预处理过的结构化的高质量数据及分析结果传输至后端，减少因带宽压力过大导致的丢包、压缩所引起的信息丢失或误差，提升智能分析的准确性。

前端智能系统的功耗、稳定性、存储空间、数据及系统更新的网络传输等诸多重要问题仍有待解决，现阶段主要通过压缩算法模型、挖掘硬件潜力以及在压缩模型的同时针对现有芯片进行优化的方式来解决功耗有限、运算能力低的问题。

三、计算机视觉的应用场景

1、安防影像分析领域

主要应用场景之人脸识别

对道路卡口、车站、地铁站、机场等地方的监控视频进行智能分析，检测出动态视频中的人脸与黑名单库中的影像记录做实时比对，比对成功则立即报警推送给警务人员处置。

主要应用场景之视频结构化

2012年南京“1．6”案件发生后，南京警方从全市1万多个摄像头共提取了近2000T的视频数据，调动1500多名公安干警查阅搜索视频线索，共耗时一个多月。海量视频的有效利用存在巨大挑战，完全依靠人工费时费力，而安防影像智能分析则可有效缓解这一问题。视频结构化可针对已经生成的海量视频内容进行自动化处理，提供行人、机动车、非机动车等关键目标的监测、跟踪、属性分析，辅以以图搜图等检索功能，让案件侦办和治安布控更加智能便捷。

安防行业的千亿市场为视觉智能改造提供充分空间

2016年中国安防行业总产值为5410亿，占据2016年中国GDP的7‰，其中1900亿属于安防产品产值。从产品结构角度，安防产品可划分为视频监控、防盗报警、出入口控制等，安防影像的智能分析属于视频监控产品的升级改造，是各地区平安城市项目建设中的重要组成。2011年至2016年中国安防市场连续5年保持2位数增长，结合国家政府对建设更高水平的平安中国、进一步提升人民安全性的要求，未来中国的安防市场依然会保持稳定增长，对人工智能、计算机视觉技术的升级改造也提出了更高的期待。

智能安防相关产业链条分析

计算机视觉技术供应商在提供智能安防影像分析的时候，可能面对监控设备及平台软件厂商、集成商、公安等三大类客户。在最终的使用者公安以外，其他三类参与者关系复杂，各自的业务定位都在发展变化，合作间有竞争。

2、泛金融身份认证领域

主要应用场景及相关影像采集设备

与安防影像分析中人脸的“1:N”识别不同，目前泛金融领域以人脸“1:1”身份认证为主，部分场景涉及“1:N”识别，如银行网点中对VIP客户的智能识别。

刷脸认证的优势与功效

3、手机及互联网娱乐领域

为消费级产品带来全新智能体验

计算机视觉技术的成熟进步为同质化的手机产品及互联网娱乐应用带来了新的活力。2017年诸多国内外手机厂商推出了具有刷脸解锁的旗舰机型，而手机与影像相关的拍照优化、相册分类、编辑处理等也于近几年得以智能升级。人脸识别、特征点定位以及场景识别、物体识别等技术也丰富了直播、短视频等互联网应用的娱乐性，同时为影像内容的智能审核及分类做出贡献。

4、商品识别领域

拓宽信息边界，连接人与商品

键入关键词，搜索引擎可连接人与信息，大幅提升人类获取信息、搜集知识的效率，为世界创造巨大价值。计算机视觉则将信息的边界再度拓宽，缩短设计、原料采购、生产制造、线上与线下零售等各个环节的人与商品的距离，为商品供应链带来效能提升。

5、工业制造领域

产品质检及3D分拣

伴随年轻人从事重复性体力劳动的意愿降低，相关领域的劳动力成本极速上升，工厂对智能自动化设备的需求日益凸显，为计算机视觉技术在工业制造领域的研发落地提供了市场基础。产品（尤其3C产品）质检是现有视觉技术有望在未来3-5年在工业制造领域大规模落地的应用场景，目前产品质检依然依靠大量人力做肉眼判断，效率低、成本高、漏检误检严重，而深度学习算法可支持多种缺陷类型，增量学习也能不断提升产品适用性。另外，工业场景中存在大量的冲压件、组合件等不规则物体，不规则物体的分拣（无序抓取并有序放置，涉及物体识别、姿态估计、尺寸测量、运动规划等）需借助3D视觉技术，即使技术相对领先的国外产商相关产品也不足够成熟，出现问题难以即时相应（往往邮件沟通，售后服务难以保障），给予目前尚处于产品研发测试阶段的国内新兴厂商反超机会。

6、广告营销领域

智能挖掘影像内容广告位，构建新型营销模式

计算机视觉技术可在长视频、短视频等点播平台、直播平台以及利用手机摄像头的AR应用中，为广告主提供多种形式的互动化、与内容强相关的场景广告。

7、医疗影像分析领域

智能医疗影像分析对病种的要求及重要指标

相比计算机视觉在其他领域的数据标注工作，医疗影像的标注门槛较高，需由专业医师标注，而且非典型病例的标注意见较难统一。标注工作之外，医疗影像分析对数字化程度、数据量、临床路径、对应检测量都有着苛刻的要求，不同病种的情况不同，难以一概而论。另外，对具体系统分析能力的考核，不能仅依据简单的准确率，特异性与敏感性是最基本的两个指标。

8、自动驾驶领域

自动驾驶技术剖析

自动驾驶系统主要涉及传感器融合、感知、高精地图、定位、规划及控制等若干技术环节，以解决“我在哪儿，周围有什么，环境将发生什么变化以及我该怎么做“等四个问题，计算机视觉则在环境感知（周围有什么）与地图绘制（我在哪儿）中发挥重要作用。

从起步到落地，自动驾驶仍需经历长期测试

自动驾驶汽车主要由车辆本身、内部硬件（传感器、计算机等）以及用于做出驾驶决策的自动驾驶软件等三个子系统组成。车辆本身需由OEM认证；内部硬件也需在各种极端条件下充分测试其稳定性，达到车规级要求；自动驾驶软件方面，相关系统需经过百亿甚至千亿公里以上的测试来充分验证其安全性（人类司机平均每1亿公里发生致命事故1~3起，自动驾驶技术要想大规模落地应用，必须优于人类司机的安全性）。与此同时，大规模路测也是收集相关场景数据以便改进感知、决策等智能技术的必要手段。然而，100万辆10万公里总里程/年的车辆行驶1年才能达到千亿公里的数据量级（Waymo在过去8年积累350万英里以上的自动驾驶数据），仿真环境下的虚拟路测（如今每天有多达25000辆虚拟的Waymo无人车在模拟器中驾驶高达八百万英里的里程）与不涉及实际控制的影子模式可作为常规测试的补充，有效降低路测成本。

自动驾驶，起步于限定场景

数据驱动的感知及决策算法难以应对开放、动态的环境的千变万化，自动驾驶车辆如何理解人类意图、如何与人工驾驶车辆的司机沟通交互也面对巨大挑战。在清晰简单的限定场景中，规则易总结，数据易收集，相关算法就越容易达到安全性要求。因此，相比开放环境下大众乘车出行的一般场景，自动驾驶技术将先在高速货运、低速摆渡、特定生产等场景落地应用。大众出行领域，自动驾驶也会逐步在特定速度限制下（时速60公里内的L3级自动驾驶汽车已有量产），停车场，乃至高速或环线等相对简单的封闭道路中替代人类驾驶。另外在自动驾驶实现以前，视觉监控系统也可对车内驾驶员进行疲劳检测、注意力检测和手势识别等，为L3级自动驾驶人机控制权的交接提供支撑，兼顾安全、驾驶辅助和车内互动娱乐。

智能出行公司为大众带来无人驾驶出行体验

美国交通部和美国高速公路安全管理局（ NHTSA）在今年9月份发布《自动驾驶制度方针 2.0》，预计将在2025之后实现全面自动的安全功能以及高速公路的自动驾驶。国内科技公司相对乐观，纷纷发声将在2021年前后实现仅在特殊情况需人类介入的L4级自动驾驶乘用车的量产。考虑到现有算法技术的能力边界，2021年其实难以实现通用场景的L4级自动驾驶，小概率的意外缺陷都有可能引发致命事故，但2021年成为创业者标杆的时候，它将促进“预言的自我实现”，技术的突破性进展及不断拓宽的行驶场景依然值得期待。

自动驾驶的到来需要在汽车中装配大量的软硬件设备，共享出行可减轻自动驾驶在推进消费市场时的阻碍，由出行服务商评测系统安全性，承担并消化成本。智能化与共享化是汽车产业生态的重要发展趋势，车企、科技公司、出行服务商间（三方均已布局自动驾驶研发）的合作结盟也会愈发频繁，智能出行公司随之诞生。

四、计算机视觉行业发展趋势

不断提升限定场景识别准确率，优化性能渗透更多行业应用

虽然终极愿景道阻且长，但分类任务的日益精准已解锁并将不断解锁更多场景应用。如同过去5年计算机视觉技术在人脸识别上的不断突破，误报率从2015年的千分之一提升至2017年的十亿分之一（在通过率为90%的情况下），商业服务、城市安全、大众娱乐等诸多场景均体会到不同层次的智能升级，商品、道路环境、医疗影像、遥感影像等更多对象的识别、分类问题也将会逐步突破工业化红线，从仅做辅助补充的非关键性应用拓展到切实提升核心业务效率的关键性应用。各行各业的创新型智能应用将纷至沓来，而人脸识别的性能亦将继续攀升，追求百亿、千亿规模上的可行性。

前沿算法之外，商业壁垒有赖于产品、服务、市场等综合建设

对于更为广泛的传统行业或线下使用场景的潜在客户，计算机视觉的技术落地往往涉及对具体业务场景的硬件设备改造、软件集成以及本地计算设施的部署，算法、技术的实际功效更需要建立在对客户真实业务场景的深层理解之上的针对性开发。不断增长的市场需求要求更加全面、及时的售前、售中、售后服务，而在对视觉技术能够达到的有效帮助缺乏足够认知或部分暂时缺乏科学完善的评测标准或技术相对同化的业务场景，市场销售的重要性尤为凸显。既要注重前沿算法研发，又要注意现阶段商业落地与市场拓展，这些都为以高新技术人才为主的计算机视觉公司提出了更为综合的挑战。