Sora横空出世引领多模态产业革命。美国时间2月15日,文生视频大模型Sora横空出世,能够根据文本指令或静态图像生成1分钟的视频。其中,视频生成包含精细复杂的场景、生动的角色表情以及复杂的镜头运动,同时也接受现有视频扩展或填补缺失的帧。总体而言,不管是在视频的保真度、长度、稳定性、一致性、分辨率、文字理解等方面,Sora都做到了业内领先水平,引领多模态产业革命。此外,当Sora训练的数据量足够大时,它也展现出了一种类似于涌现的能力,从而使得视频生成模型具备了类似于物理世界通用模拟器的潜力。

  拆解视频生成过程,技术博采众长或奠定了Sora文生视频领军地位。从技术报告中,Sora视频生成过程大致由“视频编码+加噪降噪+视频解码”三个步骤组成,视频压缩网络、时空patches、transformer架构、视频数据集等技术与资源在其中发挥了重要作用。     视频压缩网络:过往VAE应用于视频领域通常需插入时间层,Sora从头训练了能直接压缩视频的自编码器,可同时实现时间和空间的压缩,既节省算力资源,又最大程度上保留视频原始信息,或为Sora生成长视频的关键因素,并为后续处理奠定基础。     时空patches:1)同时考虑视频中时间和空间关系,能够捕捉到视频中细微的动作和变化,在保证视频内容连贯性和长度的同时,创造出丰富多样的视觉效果;2)突破视频分辨率、长宽比等限制的同时显著提升模型性能,节约训练与推理算力成本。     Transformer架构:1)相比于U-Net架构,transformer突显Scaling Law下的“暴力美学”,即参数规模越大、训练时长越长、训练数据集越大,生成视频的效果更好;2)此外,在transformer大规模训练下,逐步显现出规模效应,迸发了模型的涌现能力。     视频数据集:Sora或采用了更丰富的视频数据集,在原生视频的基础上,将DALL?E3的re-captioning技术应用于视频领域,同时利用GPT保障文字-视频数据集质量,使得模型具有强大的语言理解能力。

成为VIP会员查看完整内容
149

相关内容

Sora是OpenAI发布的一个AI模型,可以从文本指令中创建现实和想象的视频。OpenAI发布首个文本生成视频模型Sora,在生成视频长度(60秒)和内容上表现突出,为AIGC发展过程中的一大里程碑事件,
麦肯锡《生成式AI:CEO必读指南》中文版附下载,15页pdf
专知会员服务
116+阅读 · 2023年8月1日
【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用,31页pdf
专知会员服务
163+阅读 · 2023年4月9日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
171+阅读 · 2023年2月13日
ChatGPT研究框架(2023),72页ppt
专知会员服务
531+阅读 · 2023年2月11日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
48+阅读 · 2021年9月10日
专知会员服务
41+阅读 · 2021年8月10日
【2022新书】Python数据分析第三版,579页pdf
专知
16+阅读 · 2022年8月31日
重磅!AI框架发展白皮书(2022年),44页pdf
专知
21+阅读 · 2022年2月27日
综述 | CVPR2019目标检测方法进展
计算机视觉life
15+阅读 · 2019年4月3日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
325+阅读 · 2023年3月31日
Arxiv
111+阅读 · 2023年3月24日
Arxiv
15+阅读 · 2023年3月17日
VIP会员
相关VIP内容
麦肯锡《生成式AI:CEO必读指南》中文版附下载,15页pdf
专知会员服务
116+阅读 · 2023年8月1日
【ChatGPT系列报告】ChatGPT/GPT-4 如何赋能应用,31页pdf
专知会员服务
163+阅读 · 2023年4月9日
AIGC的技术发展和应用:ChatGPT,20页pdf
专知会员服务
171+阅读 · 2023年2月13日
ChatGPT研究框架(2023),72页ppt
专知会员服务
531+阅读 · 2023年2月11日
5G AIoT全景商用产品手册,52页pdf
专知会员服务
48+阅读 · 2021年9月10日
专知会员服务
41+阅读 · 2021年8月10日
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员