视频是视觉、听觉和文本等信息的结合体,具有表现力强,蕴含信息量大和形象生动等特点。随着网络传输技术和移动互联网的高速发展,视频受到越来越多互联网用户的关注并成为最重要的信息来源之一。与视频大数据的产生速度和获取能力相比,视频大数据的价值提炼和挖掘能力仍然比较低。目前主流的视频网站都需要人工对上传的视频进行分类和内容标注。这种方式耗时耗力,自动化程度低,并且受人工标记人员的专业水平制约。利用机器学习和人工智能等技术,提取出视频内容的关键语义信息,对视频内容进行分类标注,是互联网视频服务应用发展的迫切技术需求。但已有的大多数视频识别算法过度依赖于大规模有标记训练样本,在实际应用中缺乏通用性和扩展性。
基于以上分析,我们在国际多媒体领域会议ACM MM ASIA 2019上组织了零样本多模态视频识别比赛,提供一个多模态视频数据集。数据集对视频关键物体进行了标注,并提供包含声音等多媒体信息的原始视频。在标注样本有限的情形下,本竞赛鼓励参赛选手利用视频的多模态信息和外部语义知识来识别视频内容。这将有助于实现弱监督的视频标签算法,提高模型的通用性和扩展性。欢迎国内外学术界和工业界相关领域的研究人员和学生踊跃报名,与我们一起共同促进视频理解领域的技术进步和产业落地。
比赛链接:
http://challenge.yeefuntv.com/
单位:
中译语通文娱科技(青岛)有限公司
中科院自动化所
中国海洋大学
点击阅读原文详细了解