揭秘:快手用AI在短视频里玩出三大花样,背后是怎样的技术原理?

2019 年 1 月 27 日 量子位
郭一璞 发自 西二旗 
量子位 报道 | 公众号 QbitAI

你一定觉得,AI这种前沿科技,主要活在硅谷西二旗的科技公司、大学和研究院的论文、还有资本的热捧里。

这些地方有算力、有人才、有资金。

但实际上,即使是那些中国最质朴的农民,也已经用上AI了。

比如说,快手平台上的1.9亿短视频创作者,他们也在用AI技术丰富自己创作的短视频作者。

那么,具体怎么用呢?

量子位采访到了快手的技术团队,为大家介绍几个快手平台上AI应用,还有背后的原理。

低配手机也能用的Animoji

最有趣的功能当属“萌面Kmoji”,将视频中人物的头像变成虚拟卡通形象,一方面可以给视频增添乐趣,另一方面也可以帮助到那些不想露脸的用户。

类似苹果2017年推的Animoji功能,通过面部识别将用户脸上的细微表情,生成对应的卡通形象。

 Kmoji版的快手网红手工耿

量子位也体验了一下“萌面Kmoji”的效果:

至于如何生成这类效果,快手技术团队介绍,需要用到基于物理的真实感渲染算法,让Kmoji上的金属、皮革等模型看起来更拟真。

整个模拟人脸的过程借助了3D结构恢复与3D信息融合,用3D重建技术恢复出3D结构,融合2D信息后,分析人脸特征,进而生成虚拟形象。

在这里,3D人脸重建需要借助快手内部的上万级3D人脸数据集,包含每个人的年龄段、人种、脸型和表情,通过人脸关键点识别技术,帮助3D人脸重建,不管你是哭着还是笑着都可以重现出来。

此外,生成虚拟形象还要分析用户的人脸属性,借助分类/回归/分割等方法,区分出性别、年龄、肤色、脸型等信息。

之后,因为生成的3D卡通图像是会随着人的表情而变化的,需要分析人脸表情,才能在卡通形象上展示出一模一样的表情。

这里需要通过2D的RGB视觉信息对问题进行建模求解,获得人脸关键点和实时重建的3D模型,把各种模态信息做建模、做对齐,求解出人脸的表情,驱动虚拟卡通形象做各种逼真的动作。

另外的一个问题是,如何让模型在手机端(乃至低端手机上)跑起来?

快手技术团队介绍,为了让模型在手机端流畅运行,需要进行图像预处理,合并多种预处理操作,对预处理的图像内存进行统一分配和回收,利用NEON加速和苹果自带的accelerate加速,让运行库只占2M的空间。

最后,在保证预测精度的前提下,快手技术团队对AI模型进行局部的INT8量化,使得运行速度可提高1倍以上,同时AI预测模型的占用空间也压缩到将近原来的四分之一。

世界上的另一个你

世界上的另一个你是快手在去年乌镇的世界互联网大会上亮相的一个线下应用,这个玩法是根据体验者的面孔,匹配亿万快手用户上传在平台上的公开视频,找到那个跟你长相相似的人。

这个应用本身是靠人脸检测。

据快手技术团队介绍,在提取人脸特征后,系统在快手后台数据库中进行检索,找到相似度最高的三个人脸图像。

之后,再对这三个人脸图像进行更细粒度的属性分析,得出对应的年龄、性别、表情等属性,基于属性对检索结果进行重排,从三张人脸里挑出和体验者长得最像的那个。

人像3D打光

快手上的另外一个AI应用则是人像3D打光,就像是短视频版的“逆光也清晰”,在光线不好的情况下,自动“打”一束光到用户脸上,让生成的图像效果有非常自然、符合面部形状的光线。

人像3D打光主要利用了实时人脸三维重建技术,利用了人脸参数化先验模型,根据输入图,自动匹配人脸几何信息,得到人脸3D模型参数,获得人脸3D网格模型。

另外,还可以根据不同的场景设置不同的光源,利用实时渲染技术对虚拟人脸进行渲染,得到面部光影图;对输入人像进行前景分割,得到前景分割蒙版,也可以根据原图得到其他蒙版信息;这些蒙版分别作为不同的图层按照场景需求特定的方式叠加到原图上,就可以得到打光结果。

OMT

除了计算机视觉、计算机图形学方面的应用,据快手算法科学家张国鑫介绍,快手在2019年也会将语音识别融入到产品中,开发更多应用。


2018中国人工智能明星创业公司

加入社群

量子位AI社群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;


此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。


进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「好看」吧 !


登录查看更多
0

相关内容

基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
自回归模型:PixelCNN
专知会员服务
25+阅读 · 2020年3月21日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
114+阅读 · 2019年10月10日
已删除
将门创投
8+阅读 · 2019年7月10日
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Foreground-aware Image Inpainting
Arxiv
4+阅读 · 2019年1月17日
Arxiv
4+阅读 · 2018年9月25日
Doubly Attentive Transformer Machine Translation
Arxiv
4+阅读 · 2018年7月30日
Arxiv
3+阅读 · 2018年3月14日
Arxiv
6+阅读 · 2018年2月7日
Arxiv
10+阅读 · 2017年11月22日
VIP会员
相关VIP内容
基于视觉的三维重建关键技术研究综述
专知会员服务
154+阅读 · 2020年5月1日
【天津大学】风格线条画生成技术综述
专知会员服务
31+阅读 · 2020年4月26日
CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络
专知会员服务
43+阅读 · 2020年4月17日
【CVPR2020】图神经网络中的几何原理连接
专知会员服务
56+阅读 · 2020年4月8日
自回归模型:PixelCNN
专知会员服务
25+阅读 · 2020年3月21日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
31+阅读 · 2020年1月10日
【GitHub实战】Pytorch实现的小样本逼真的视频到视频转换
专知会员服务
35+阅读 · 2019年12月15日
2019年人工智能行业现状与发展趋势报告,52页ppt
专知会员服务
114+阅读 · 2019年10月10日
相关资讯
已删除
将门创投
8+阅读 · 2019年7月10日
分析 | 抖音背后的计算机视觉技术
计算机视觉life
9+阅读 · 2019年5月31日
抖音的 2017 和它背后的黑科技
PingWest品玩
8+阅读 · 2018年1月4日
揭秘人脸识别的十大关键技术
全球创新论坛
6+阅读 · 2017年9月6日
Top
微信扫码咨询专知VIP会员