Video generation has achieved remarkable progress in visual fidelity and controllability, enabling conditioning on text, layout, or motion. Among these, motion control - specifying object dynamics and camera trajectories - is essential for composing complex, cinematic scenes, yet existing interfaces remain limited. We introduce LAMP that leverages large language models (LLMs) as motion planners to translate natural language descriptions into explicit 3D trajectories for dynamic objects and (relatively defined) cameras. LAMP defines a motion domain-specific language (DSL), inspired by cinematography conventions. By harnessing program synthesis capabilities of LLMs, LAMP generates structured motion programs from natural language, which are deterministically mapped to 3D trajectories. We construct a large-scale procedural dataset pairing natural text descriptions with corresponding motion programs and 3D trajectories. Experiments demonstrate LAMP's improved performance in motion controllability and alignment with user intent compared to state-of-the-art alternatives establishing the first framework for generating both object and camera motions directly from natural language specifications.


翻译:视频生成在视觉保真度和可控性方面取得了显著进展,能够基于文本、布局或运动进行条件生成。其中,运动控制——指定物体动态和相机轨迹——对于构建复杂的电影化场景至关重要,然而现有接口仍存在局限。我们提出了LAMP,该方法利用大语言模型(LLM)作为运动规划器,将自然语言描述转换为动态物体和(相对定义的)相机的显式三维轨迹。LAMP定义了一种受电影摄影惯例启发的运动领域特定语言(DSL)。通过利用LLM的程序合成能力,LAMP从自然语言生成结构化运动程序,这些程序被确定性地映射到三维轨迹。我们构建了一个大规模程序化数据集,将自然文本描述与对应的运动程序和三维轨迹进行配对。实验表明,与现有先进方法相比,LAMP在运动可控性和用户意图对齐方面表现更优,首次建立了直接从自然语言规范生成物体和相机运动的框架。

0
下载
关闭预览

相关内容

【CVPR2024】ViewDiff: 3D一致的图像生成与文本到图像模型
专知会员服务
30+阅读 · 2024年3月10日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
Top
微信扫码咨询专知VIP会员