在本文中,人民中科董事长李兵解读了人民中科在视频理解技术的最新进展。
近日中国互联网络信息中心(CNNIC)发布了第 48 次《中国互联网络发展状况统计报告》,数字社会新形态持续升级,截至 2021 年 6 月我国网民规模达 10.11 亿,网络视频(含短视频)用户规模 9.44 亿。随着互联网内容的视频化以及 VR、元宇宙等应用的兴起,海量的非结构化内容正在高速增长,这些内容难以被机器快速识别、准确理解和方便检索。
人民中科团队在视频理解方面积累了多年经验,长期处于世界领先水平。在不久之前公布的 2020 年度国家科学技术奖中,人民中科核心团队中的胡卫明、李兵以《视觉运动模式学习与理解的理论与方法》项目,获得国家自然科学奖二等奖,也是唯一关于智能视频的获奖项目。
近日机器之心采访了人民中科董事长李兵,了解了人民中科在视频理解技术的最新进展。
人类每天接触到的信息里有 70% 是视觉信息;音视频是人类最自然的交流和表达方式;随着计算技术的发展,交互日趋自然化,音视频正在改变互联网的表达和交流方式。在 Twitter 上,平均每天有 80% 的消息包含图像或视频,或者仅仅是图像或视频。据贝尔实验室研究报告,人和设备产生的数据中,音视频占主导地位,并占据着新增数据流的五分之四。
亚马逊首席技术官 Werner 在 Invent 全球大会提出,2021 年及以后,从社交平台到业务运营的所有领域,音频、视频和图像的使用将继续取代文字;他认为,新兴的用户界面,让人类可以用更自然的方式进行人与机器、人与人的交互。
企业要与客户更好交流,也需要更敏锐地意识到这些变化。客户不再依靠键盘与企业的产品和服务进行互动,企业需要转向更自然的用户界面、更自然的交流方式。音视频让服务和信息的获取更加公平,交流将不再受文字能力或行动缺陷的限制。
有观点认为,视频智能理解是人工智能的重要战场,是体量最大的人工智能。「视频理解是人工智能最需要攻克的高峰之一,而互联网会是视频理解的最重要应用场景,视频理解具有广泛的应用前景。」人民中科董事长李兵表示。正是因为认识到视频理解的重要性,人民中科团队才多年坚持扎根于这个领域。
视频除了空间特性外还具有时序特性,
运动信息是其最重要的特征,是物体检测、目标跟踪、行为识别以及视频事件分析和理解的核心能力及关键环节
。有观点认为,视频智能理解将是人工智能的重要战场,是体量最大的人工智能。据李兵介绍:「网络视频的标注、分类、风控,监控视频的目标跟踪、行为识别,工业视频中的安全检测等,都属于视频理解的应用场景」。
「运动模式的学习与理解」是理解视频信息的重要技术,人民中科的团队围绕目标检测跟踪的鲁棒性和行为模式的可学习性等关键科学问题,取得了一系列具有重要国际影响力的创新成果,实现了「运动模式的学习与理解」这一难题的部分解决。目前已有 90 余篇论文发表在 ACM Transactions、IJCV、TPAMI 等国际顶刊上;公司的胡卫明、李兵以《视觉运动模式学习与理解的理论与方法》项目获得国家自然科学奖二等奖,是唯一关于智能视频的获奖项目,6 篇代表性论文的他引次数超过 7000 次。
「团队做研究时的目标都很单纯,就是做顶尖的科研,做有用的科研。」李兵说,以前搞科研,始终对团队强调两个方面:一是要高水平,从不要求论文数量,只强调质量、影响力;二是特别看重将科研成果能否真正用在国家重大项目需求和工程实践,并通过实际应用检验和提升科研能力。「这么多年来,我们团队始终能在视频运动分析、内容理解领域保持国际领先,一是坚持深耕一个方向,不为各种热点所干扰;更重要就是坚持理论研究与实际工程的结合,真正把论文写在祖国的大地上」。现在创办企业,团队希望将人工智能前沿技术与市场需求融合,形成低成本、高效率、自主可控的产品体系,帮助国内中小型科技企业降低 AI 应用门槛。
目前,人民中科在视频理解的多个方向都具有国际领先的技术成果和储备:
在视频跟踪方向
,团队在 TPAMI 和 IJCV 等国际权威期刊和会议上发表过数十篇论文,获得过多次世界比赛的冠军,2020 年获得中国模式识别与计算机视觉大会 PRCV 最佳论文奖,并获得吴文俊人工智能科学技术奖一等奖。近期主要探索人脑的认知机理,研究模拟小脑空间定位和大脑高层认知的协作机制,利用相关滤波器在频域上模拟小脑对底层视觉信号的细粒度编码与空间精确定位能力,利用卷积反卷积神经网络在时域上模拟大脑对视觉信号的编解码及其高层认知能力,逐步实现相关滤波学习和深度特征学习相融合的实时在线自适应的目标跟踪。
在行为识别和视频内容描述方向
,团队在 TPAMI 和 IJCV 等顶级期刊和会议上发表论文 40 余篇,获得 ICCV2019 VATEX 视频描述中 / 英文双赛道冠军。正在模拟大脑的视觉注意力机制,并根据视觉系统中表观神经通路和运动神经通路之间的注意力机制设计运动增强模块,加强双流卷积神经网络两路分支之间的交互和协同,构建有效的基于时空深度耦合的目标行为识别模型。在视频内容描述方面,提出了新的教师推荐学习策略,通过知识蒸馏的方法,将外部语言模型的语言学知识传递给描述模型;在原有教师强迫学习的训练过程的基础上,配合在大型语料库上预训练的语言模型生成的软目标进行推荐学习,在每一步的训练中同时学到了数十倍的知识,很好地缓解了由于缺乏特殊视频的训练样本所带来的训练不足问题。
在视频内容安全方向
,团队拥有发明专利 40 余项,多项技术与产品广泛地应用于各种实际应用系统,曾获得北京市科学技术一等奖,中国通信学会科学技术一等奖,北京市发明专利奖一等奖等。正在重点研究并很快发布基于深度纹理网络和空间身份约束的伪造人脸鉴别,引入更多的约束信息,设计了性能更优,泛化能力更强的假脸检测算法,包括具备更高的准确率、对未知造假模型更好的泛化能力、对数据量更小的依赖性、对图像劣化的鲁棒性,以及具备一定的自我更新能力,解决交叉测试中不同类型的检测算法在遇到未知造假模型时泛化性能急剧下降的问题。
「公司从成立之初,就一直坚持自主创新这个重要方向,已经推出的多款产品实际运行性能均超过了国外对标产品。」人民中科成立两年多来,已在 CVPR、IEEE TIP、IEEE TCSVT 等顶会顶刊上发表多篇论文,并推出了从基础模型、计算加速卡、计算服务器到 SaaS 的全系列国产化产品。谈到作为一家初创公司,为什么会选择这么一条成本和技术挑战都非常高的路线。李兵认为,「在当前国际竞争的大环境下,人工智能是未来竞争最为激烈的科技领域之一;我国构建自主的技术体系是保证未来技术竞争力和系统安全性的必经之路,而且国内人工智能的相关芯片和硬件、计算技术、底层系统等已经有较好的产业基础和应用生态。」
人民中科是中科院自动化所与人民网强强联合,共同发起成立的内容科技企业。公司依托中科院自动化所的模式识别国家重点实验室、人民网的传播内容认知国家重点实验室、中国科学院人工智能创新研究院等重要科研平台,有先天的技术先进性和行业敏感度优势。但科技落地产业,只有技术优势是远远不够的,核心是要解决好机制、人才等商业底层基础。
为了更好地打造经管、产品、工程等方面的体系化团队,人民中科主动与社会多方合作,设计打造机制、用好机制,吸引中高级人才加入。公司借鉴世界优秀企业的经验,搭建开放、高效的数字组织,以创造一个自由生长、高效协作的内部创业生态为目标,目前已吸引了一批国内外互联网巨头及科技独角兽的中高层管理人员加盟。
李兵作为国家优青,也是所里年轻的研究员、博导,聊到从一个杰出科学家到普通创业者的历程,李兵觉得自己还需要继续调整。「以前做科研,是带几十个人做项目,现在则需要与几百个人协同做企业;科研需要攻克顶峰、突破边界,重视创新和原创,较少考虑落地的限制,而做企业首先要考虑实现目标任务所需的代价,需要以低成本和较少的约束条件做出让用户满意、市场买单的实用产品;二者最大的相同之处是人才,都需要聚集最聪明的年轻人一起奋斗,都需要解决优秀人才愿意加入、有所成长、愿意奋斗等问题」。
人民中科围绕 “视频大脑” 建立以视频内容为对象的数据处理、智能识别和理解、高通量计算等能力,均达国际领先水平,提供的产品或服务成功解决了用户在内容安全、智能运维、视频检索等方面的需求。
「用户并不是很在意你技术如何厉害,他们只会为能够感知到的效果和价值买单,还希望尽可能的便宜。」因此在实际应用中,就要求公司提供的算法和技术不仅效果好、精度高,更需要有高效能、低成本、低场景限制。比如,视频理解的算法会涉及惊人的计算量,对算力有较高要求。我们经常发现,在测试或封闭环境下,有些企业实现的效果或许不错,但用户往往没有足够的能力提供或承受所需的算力成本,或者由于场景限制导致可用的计算平台性能很低,出现了所谓「技术落地难」的问题。目前人民中科在这个方向做了非常深入的探索,积累了深厚的技术储备和应用经验。并且视频理解的算法会涉及惊人的计算量,对算力有较高要求。人民中科提出动态和渐进式的分解与裁剪一体化的模型压缩方法,以及基于图结构的蒸馏学习方法等一整套深度模型压缩与加速方案,向客户提供的算法与算力深度优化方案,计算速度是业内平均水平的四倍以上,能降低 70% 左右的计算成本;提供的算法和产品可以在弱标注、少训练以及复杂场景下完成多模态数据的智能处理。
成立两年多的时间内已基本完成了研发、技术、工程、管理等体系的建设;对外暂以输出技术能力的形式进行合作,目前已签约的合作对象多是互联网大厂、政府、高校、运营商、上市公司,公司能力已得到市场初步认可。对公司的规划,据李兵介绍,第一阶段主要是尽快完成技术的工程化、产品的国产化。下一阶段将结合应用场景,逐步推出专用计算设备和服务,在更广泛、更复杂的应用中不断提升公司的核心能力;工作重点仍是团队建设,聚集最优秀的人才,建设内容理解的核心能力,为社会治理、商业营销、消费娱乐等提供基础技术,提升数字世界的认知能力。
© THE END
转载请联系本公众号获得授权
投稿或寻求报道:content@jiqizhixin.com