25个视频神同步，还能给视频声音移花接木，谷歌开源最新自监督算法

会员服务 ·

25个视频神同步，还能给视频声音移花接木，谷歌开源最新自监督算法

2019 年 8 月 9 日 量子位

晓查发自凹非寺
量子位出品 | 公众号 QbitAI

对于AI来说，识别视频里发生了什么已经不是难事，训练它的方法就是用带有标签的视频数据集进行监督学习。

比如我们给AI看带有“棒球”标签的视频，然后它就能知道这是什么运动。但这是远远不够的，我们希望它不仅能知道这是什么运动，还希望它能预测球何时被投出去。

可是要让AI理解视频里每一帧的内容太难了，因为你不可能逐帧对视频做标记，用监督学习的方法是不切实际的。

所以谷歌的研究人员提出了一种时间周期一致性学习（TCC）的自监督学习算法，可以在一段连续过程中，找到每一帧和某个具体动作的对应关系。

目前，谷歌已经开源了TCC的代码，希望让用户能够在自己开发的程序中用上这种最新算法。

TCC原理

当一个人想去倒一杯饮料时，他会去伸手去拿茶壶、酒瓶或水杯。这是一种按特定顺序发生的事件。相同类型的视频都会有类似的时间先后对应关系。

关键帧对于所有倒水视频是相似的，并且存在许多变化因素，例如视点、物体大小，容器形状或倒水速度的差异。

TCC利用周期一致性原则在相同动作的视频中找到这种对应关系，通过对齐视频来学习有用的视觉表征。

首先，训练算法通过单独提取每个帧来产生视频帧的嵌入。然后选择用于TCC学习的两个视频，使用其中一个作为参考视频，用它的帧嵌入来识别来自第二个视频相同动作的最近帧。

随着训练过程的进行，嵌入器对在动作的上下文中产生对每个视频帧的语义理解，改善和降低了周期一致性损失。

在下图中，谷歌展示了使用TCC训练的模型，该模型来自宾夕法尼亚动作数据集中进行深蹲练习的人的视频。

图中左侧的每个点对应于帧嵌入，点的位置随着当前视频帧动作而变化。尽管在姿势、光照、身体等方面存在许多差异，TCC还是能在不提供标注的情况将将两个视频同步起来。

谷歌还将TCC与其它有监督学习算法进行对比。在识别高尔夫挥杆和网球发球这个两个动作时，有监督学习需要50个标记样本才能达到和TCC一样的准确度，而TCC在仅有一个标记样本的情况下就已经有很高准确度了。

实际应用

TCC可以在只有一个标记视频的情况下，将其它同类视频的动作阶段进行分类，并且可以用参考视频一次对齐多个剪辑视频，做到“神同步”。

下面就是TCC将25个棒球投手视频的动作完全同步到一致的例子：

此外，TCC还可以将与一个视频中的任何帧相关联的元数据传输到另一视频中。比如将一个倒水视频中的声音传输到另一个视频中，做到音画同步，听起来毫无违和感。

博客地址：
https://ai.googleblog.com/2019/08/video-understanding-using-temporal.html

源代码地址：
https://github.com/google-research/google-research/tree/master/tcc

— 完 —

加入社群 | 与优秀的人交流

小程序 | 全类别AI学习教程

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧！

登录查看更多

相关内容

TCC

关注 2

TCC：IEEE Transactions on Cloud Computing。 Explanation：云计算的IEEE事务。 Publisher：IEEE。 SIT:https://dblp.uni-trier.de/db/journals/tcc/

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

专知会员服务

185+阅读 · 2020年2月22日

【IJCV2020】通过迭代亲密学习实现弱监督语义分割

专知会员服务

42+阅读 · 2020年2月20日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【斯坦福&Google】面向机器人的机器学习，63页PPT

专知会员服务

26+阅读 · 2019年11月19日

已删除

将门创投

11+阅读 · 2019年8月13日

让半监督学习再次伟大！谷歌最新无监督数据增强研究，全面超越现有半监督学习方法

新智元

20+阅读 · 2019年7月11日

【学界】造假AI又进化！只要一张照片，说话唱歌视频自动生成，降维打击Deepfakes丨已开源

GAN生成式对抗网络

12+阅读 · 2019年6月24日

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

开源中国

5+阅读 · 2018年11月14日

鉴黄师下岗倒计时！AI 技术已成熟应用于成人视频网站

极客公园

3+阅读 · 2017年10月14日

Perception of prosodic variation for speech synthesis using an unsupervised discrete representation of F0

Arxiv

3+阅读 · 2020年3月14日

Unsupervised Multilingual Word Embeddings

Arxiv

3+阅读 · 2018年8月27日

Zero-Shot Object Detection by Hybrid Region Embedding

Arxiv

19+阅读 · 2018年5月17日

SSD: Single Shot MultiBox Detector

Arxiv

5+阅读 · 2016年12月29日

Recurrent Instance Segmentation

Arxiv

5+阅读 · 2016年10月24日

VIP会员