加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!
同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流。点击文末“阅读原文”立刻申请入群~
发布 | 美图公司社交产品事业群视觉算法组
来源 | 机器之心
本文介绍了美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作的一篇论文,双方联合发布了业界最大规模教程类行为数据集 COIN(COmprehensive INstructional video analysis)。
论文标题: COIN: A Large-scale Dataset for Comprehensive Instructional Video Analysis
论文地址:
https://arxiv.org/pdf/1903.02874.pdf
数据集链接:https://coin-dataset.github.io
教程类行为视频(Instructional Video)可以帮助使用者获取完成各种行为任务的知识,但是现有教程类行为视频数据集在规模性和多样性都存在较大的局限性,难以应用于现实生中的复杂场景。为此,美图公司社交产品事业群视觉算法组与清华大学自动化系智能视觉实验室合作提出了名为 COIN 的大规模教程类数据集,用于更全面的教程类行为视频分析。
COIN 数据集的概览
COIN 数据集采用分层结构,即第一层是领域(Domain)、第二层是任务(Task)、第三层是步骤(Step),其中包含与日常生活相关的 11827 个视频,涉及交通工具、电器维修、和家具装修等 12 个领域的 180 个任务,共 778 个步骤。
COIN 数据集的分层结构
COIN 数据集的设计人员还开发了创新性的标注工具,可以更高效更准确地标注视频行为的步骤信息。此外,为了给数据集提供更准确的基准指标,数据集开发人员还使用了 SSN、R-C3D 等评价方法对 COIN 数据集进行了测评。
COIN 数据集的步骤定位准确率分析
目前,COIN 数据集是业界规模最大、多样性最丰富的教程类视频数据集。该数据集在标注结构上采用分层的组织结构,涵盖了多种不同类型的教程类视频。该数据集的提出,给复杂场景下视频动作时序定位(temporal localization)等问题的研究提供丰富的数据资源,有望加快推动视频行为分析与理解等相关领域的研究。
团队介绍:美图公司社交产品事业群视觉算法组,是美图社交化的重要算法团队之一。随着「美和社交」战略的发布,美图秀秀从过去的纯图片处理软件转变为社区平台。视觉算法组通过人工智能/深度学习算法,理解图像和视频内容中的语义信息,为社区中推荐、搜索、反作弊和垃圾过滤等提供有力的技术支撑。帮助用户处理图片的同时,增加社交功能及软件活性。
ps.CVPR2019 accepted list已经放出,极市已将目前收集到的公开论文总结到github上(目前已收集137篇),后续会不断更新,欢迎关注,也欢迎大家提交自己的论文:
https://github.com/extreme-assistant/cvpr2019
*延伸阅读
小Tips:如何查看和检索历史文章?
有不少小伙伴提问如何号内搜文章,其实很简单,在“极市平台”公众号后台菜单点击极市干货-历史文章,或直接搜索“极市平台”公众号查看全部消息,即可在如下搜索框查找往期文章哦~
ps.可以输入CVPR2019/目标检测/语义分割等等,快去探索宝藏吧~~
觉得有用麻烦给个好看啦~