【CVPR2023】高保真自由可控的说话头视频生成 - 专知VIP

会员服务 ·

13

CVPR 2023 · 视频生成 · AIGC ·

2023 年 4 月 22 日

【CVPR2023】高保真自由可控的说话头视频生成

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

说话头生成是根据给定的源身份和目标运动生成视频。然而，目前的方法面临着一些挑战，限制了生成视频的质量和可控性。首先，生成的人脸往往存在意想不到的变形和严重的失真。其次，驾驶图像没有明确地解缠运动相关信息，如姿态和表情，这限制了在生成过程中对不同属性的操作。第三，由于相邻帧之间提取的地标不一致，生成的视频往往存在闪烁伪影。本文提出一种新的模型，可以产生高保真的头部视频，可以自由控制头部姿态和表情。该方法利用自监督学习路标和基于3D人脸模型的路标来建模运动。本文还提出了一个新的运动感知多尺度特征对齐模块，以有效地迁移运动而不产生面部失真。用特征上下文自适应和传播模块增强了合成的说话人视频的平滑性。在具有挑战性的数据集上评估了该模型，并展示了其最先进的性能。更多信息请访问https://yuegao.me/PECHead。

成为VIP会员查看完整内容

21

相关内容

CVPR 2023

CVPR 2023大会将于 6 月 18 日至 22 日在温哥华会议中心举行。CVPR是IEEE Conference on Computer Vision and Pattern Recognition的缩写，即IEEE国际计算机视觉与模式识别会议。该会议是由IEEE举办的计算机视觉和模式识别领域的顶级会议，会议的主要内容是计算机视觉与模式识别技术。 CVPR 2023 共收到 9155 份提交，比去年增加了 12%，创下新纪录，今年接收了 2360 篇论文，接收率为 25.78%。作为对比，去年有 8100 多篇有效投稿，大会接收了 2067 篇，接收率为 25%。

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

45+阅读 · 2023年6月2日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

基于几何结构预训练的蛋白质表征学习

基于几何结构预训练的蛋白质表征学习

专知会员服务

15+阅读 · 2022年8月21日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【NeurIPS2022】隐空间变换解决GAN生成分布的非连续性问题

【NeurIPS2022】隐空间变换解决GAN生成分布的非连续性问题

专知

0+阅读 · 2022年11月30日

只需训练一次，即可生成3D新场景！谷歌「光场神经渲染」进化史

只需训练一次，即可生成3D新场景！谷歌「光场神经渲染」进化史

新智元

1+阅读 · 2022年9月29日

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

PaperWeekly

1+阅读 · 2022年9月7日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

16+阅读 · 2019年1月30日

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于单目视觉的实时人脸动画生成方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

保持全局形状和视觉舒适度的2D和3D媒体适应方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

联合显著性检测和对象分割的算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于体映射的修复用人体骨骼支架模型生成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

高精细模型的向量位移映射表示及几何处理

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Arxiv

0+阅读 · 2023年6月6日

Instructive Feature Enhancement for Dichotomous Medical Image Segmentation

Arxiv

0+阅读 · 2023年6月6日

DFormer: Diffusion-guided Transformer for Universal Image Segmentation

Arxiv

1+阅读 · 2023年6月6日

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Arxiv

0+阅读 · 2023年6月2日

Segment Anything in High Quality

Arxiv

0+阅读 · 2023年6月2日

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense

Arxiv

0+阅读 · 2023年6月2日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Arxiv

42+阅读 · 2020年12月21日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

VIP会员

相关主题

相关VIP内容

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

GAN/NeRF如何可控生成内容？ETHZ博士论文《结构化生成模型用于可控场景和3D内容合成》，205页pdf

专知会员服务

45+阅读 · 2023年6月2日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知会员服务

40+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知会员服务

31+阅读 · 2023年4月7日

基于几何结构预训练的蛋白质表征学习

基于几何结构预训练的蛋白质表征学习

专知会员服务

15+阅读 · 2022年8月21日

【CVPR2022】提示分布学习

【CVPR2022】提示分布学习

专知会员服务

31+阅读 · 2022年5月17日

【CVPR 2021】姿态可控的语音驱动说话人脸

专知会员服务

16+阅读 · 2021年5月13日

【CVPR2021】GAN人脸预训练模型

【CVPR2021】GAN人脸预训练模型

专知会员服务

24+阅读 · 2021年4月10日

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

【CVPR2020-Facebook AI】单样本自适应域脸生成，One-Shot Domain Adaptation

专知会员服务

29+阅读 · 2020年4月6日

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

【CVPR2020-Oral-牛津-Facebook】从单个图像进行端到端的视图合成，SynSin-View Synthesis

专知会员服务

29+阅读 · 2020年3月26日

姿势服装随心换-CVPR2019

姿势服装随心换-CVPR2019

专知会员服务

36+阅读 · 2020年1月26日

热门VIP内容

开通专知VIP会员享更多权益服务

【AAAI2026】Align3GR：面向 LLM 生成式推荐的统一多层次对齐方法

多智能体强化学习中的稳健且高效的通信

【博士论文】通过判别式与生成式学习方法推进 3D场景理解

DeepSeek 实践：大模型部署、微调与应用

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

【CVPR2023】Mask3D:通过学习掩码3D先验对2D视觉transformer进行预训练

专知

2+阅读 · 2023年4月9日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

【NeurIPS2022】隐空间变换解决GAN生成分布的非连续性问题

【NeurIPS2022】隐空间变换解决GAN生成分布的非连续性问题

专知

0+阅读 · 2022年11月30日

只需训练一次，即可生成3D新场景！谷歌「光场神经渲染」进化史

只需训练一次，即可生成3D新场景！谷歌「光场神经渲染」进化史

新智元

1+阅读 · 2022年9月29日

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

ACM MM 2022 | 基于GMM的多重prototype，助力UDA语义分割新SOTA

PaperWeekly

1+阅读 · 2022年9月7日

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知

1+阅读 · 2022年7月28日

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

CVPR 2020 | 看图说话之随心所欲：细粒度可控的图像描述自动生成

AI科技评论

14+阅读 · 2020年3月16日

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

让大卫雕塑跳舞、蒙娜丽莎说话，英伟达视频合成有如此多「骚操作」

机器之心

10+阅读 · 2019年10月28日

【紫冬声音】基于人体骨架的行为识别

【紫冬声音】基于人体骨架的行为识别

中国自动化学会

16+阅读 · 2019年1月30日

相关基金

保持结构的交互式图像及视频编辑方法研究

国家自然科学基金

2+阅读 · 2015年12月31日

基于全向深度视觉的高精度人体肢体运动三维重建研究

国家自然科学基金

0+阅读 · 2014年12月31日

基于单目视觉的实时人脸动画生成方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

保持全局形状和视觉舒适度的2D和3D媒体适应方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

联合显著性检测和对象分割的算法研究

国家自然科学基金

0+阅读 · 2013年12月31日

双目立体视频到多视点立体视频生成及压缩方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于体映射的修复用人体骨骼支架模型生成方法研究

国家自然科学基金

0+阅读 · 2012年12月31日

高精细模型的向量位移映射表示及几何处理

国家自然科学基金

0+阅读 · 2011年12月31日

风格化人体运动合成新方法研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于协同学的并行多层次反馈图像理解研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

Ada-TTA: Towards Adaptive High-Quality Text-to-Talking Avatar Synthesis

Arxiv

0+阅读 · 2023年6月6日

Instructive Feature Enhancement for Dichotomous Medical Image Segmentation

Arxiv

0+阅读 · 2023年6月6日

DFormer: Diffusion-guided Transformer for Universal Image Segmentation

Arxiv

1+阅读 · 2023年6月6日

DaTaSeg: Taming a Universal Multi-Dataset Multi-Task Segmentation Model

Arxiv

0+阅读 · 2023年6月2日

Segment Anything in High Quality

Arxiv

0+阅读 · 2023年6月2日

Beyond Pretrained Features: Noisy Image Modeling Provides Adversarial Defense

Arxiv

0+阅读 · 2023年6月2日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

MetAug: Contrastive Learning via Meta Feature Augmentation

Arxiv

10+阅读 · 2022年3月10日

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Generative Adversarial Networks in Computer Vision: A Survey and Taxonomy

Arxiv

42+阅读 · 2020年12月21日

Deformable Style Transfer

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

微信扫码咨询专知VIP会员