We introduce Quokka, the first systematic scaling law for diffusion language models (DLMs), encompassing both compute-constrained and data-constrained regimes, and studying the key modeling and optimization designs. Quokka is a good friend of Chinchilla and provides wider scopes. We hope the results would bring short-term practical guidance in DLMs training and long-term inspirations for the whole AI community.


翻译:我们提出了Quokka,这是首个针对扩散语言模型(DLMs)的系统性缩放定律,涵盖了计算受限与数据受限两种机制,并研究了关键建模与优化设计。Quokka是Chinchilla的良好伙伴,提供了更广泛的研究范畴。我们希望这些成果能为DLMs训练提供短期实用指导,并为整个AI社区带来长期启发。

0
下载
关闭预览

相关内容

OpenAI GPT 4.5 报告 (中英文版)
专知会员服务
40+阅读 · 3月1日
AI新视野 | 数据蒸馏Dataset Distillation
人工智能前沿讲习班
31+阅读 · 2019年6月14日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月15日
Arxiv
0+阅读 · 11月18日
VIP会员
相关基金
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
4+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员