Large Language Models (LLMs) apply uniform computation to all tokens, despite language exhibiting highly non-uniform information density. This token-uniform regime wastes capacity on locally predictable spans while under-allocating computation to semantically critical transitions. We propose $\textbf{Dynamic Large Concept Models (DLCM)}$, a hierarchical language modeling framework that learns semantic boundaries from latent representations and shifts computation from tokens to a compressed concept space where reasoning is more efficient. DLCM discovers variable-length concepts end-to-end without relying on predefined linguistic units. Hierarchical compression fundamentally changes scaling behavior. We introduce the first $\textbf{compression-aware scaling law}$, which disentangles token-level capacity, concept-level reasoning capacity, and compression ratio, enabling principled compute allocation under fixed FLOPs. To stably train this heterogeneous architecture, we further develop a $\textbf{decoupled $μ$P parametrization}$ that supports zero-shot hyperparameter transfer across widths and compression regimes. At a practical setting ($R=4$, corresponding to an average of four tokens per concept), DLCM reallocates roughly one-third of inference compute into a higher-capacity reasoning backbone, achieving a $\textbf{+2.69$\%$ average improvement}$ across 12 zero-shot benchmarks under matched inference FLOPs.


翻译:大型语言模型(LLM)对所有词元采用统一计算,然而语言本身具有高度非均匀的信息密度。这种词元统一的处理机制将计算能力浪费在局部可预测的片段上,同时未能为语义关键转换分配足够的计算资源。我们提出**动态大概念模型(DLCM)**——一种分层语言建模框架,该框架从潜在表示中学习语义边界,并将计算从词元转移至压缩后的概念空间,从而在概念空间中进行更高效的推理。DLCM以端到端的方式发现可变长度的概念,无需依赖预定义的语言单元。分层压缩从根本上改变了模型的缩放行为。我们提出了首个**压缩感知缩放定律**,该定律解耦了词元级容量、概念级推理容量与压缩比率,使得在固定浮点运算次数(FLOPs)下能够进行有原则的计算分配。为稳定训练这种异构架构,我们进一步开发了**解耦的$μ$P参数化方法**,支持在宽度和压缩机制间进行零样本超参数迁移。在实用设定下($R=4$,对应平均每个概念包含四个词元),DLCM将约三分之一的推理计算重新分配至高容量的推理骨干网络,在匹配的推理FLOPs下,在12个零样本基准测试中实现了**平均+2.69%的性能提升**。

0
下载
关闭预览

相关内容

《用于代码弱点识别的 LLVM 中间表示》CMU
专知会员服务
14+阅读 · 2022年12月12日
【NeurIPS2020】可处理的反事实推理的深度结构因果模型
专知会员服务
49+阅读 · 2020年9月28日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
VIP会员
相关资讯
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员