Large-scale models are at the forefront of time series (TS) forecasting, dominated by two paradigms: fine-tuning text-based Large Language Models (LLM4TS) and training Time Series Foundation Models (TSFMs) from scratch. Both approaches share a foundational assumption that scaling up model capacity and data volume leads to improved performance. However, we observe a \textit{\textbf{scaling paradox}} in TS models, revealing a puzzling phenomenon that larger models do \emph{NOT} achieve better performance. Through extensive experiments on two model families across four scales (100M to 1.7B parameters) and diverse data (up to 6B observations), we rigorously confirm that the scaling paradox is a pervasive issue. We then diagnose its root cause by analyzing internal representations, identifying a phenomenon we call \textit{few-layer dominance}: only a small subset of layers are functionally important, while the majority are redundant, under-utilized, and can even distract training. Based on this discovery, we propose a practical method to automatically identify and retain only these dominant layers. In our models, retaining only 21\% of the parameters achieves up to a 12\% accuracy improvement and a 2.7$\times$ inference speedup. We validate the universality of our method on 8 prominent SOTA models (LLM4TS and TSFMs, 90M to 6B), showing that retaining less than 30\% of layers achieves comparable or superior accuracy in over 95\% of tasks.


翻译:大规模模型已成为时间序列预测的前沿技术,主要受两种范式主导:基于文本的大型语言模型的微调(LLM4TS)以及从头训练的时间序列基础模型(TSFM)。这两种方法均基于一个核心假设,即扩大模型容量和数据规模能提升性能。然而,我们在时间序列模型中观察到一个**规模悖论**,揭示了一个令人困惑的现象:更大的模型**并未**实现更好的性能。通过对两个模型家族在四种规模(1亿至17亿参数)和多样化数据(高达60亿观测值)上的大量实验,我们严格证实了规模悖论是一个普遍存在的问题。随后,我们通过分析内部表示来诊断其根本原因,发现了一种称为**少数层主导**的现象:仅有少数层在功能上至关重要,而大多数层是冗余的、未充分利用的,甚至可能干扰训练。基于这一发现,我们提出了一种实用方法,能自动识别并仅保留这些主导层。在我们的模型中,仅保留21%的参数即可实现高达12%的准确率提升和2.7倍的推理加速。我们在8个主流SOTA模型(LLM4TS和TSFM,9000万至60亿参数)上验证了该方法的普适性,结果表明,在超过95%的任务中,保留少于30%的层即可达到相当或更优的准确率。

0
下载
关闭预览

相关内容

数学上,序列是被排成一列的对象(或事件);这样每个元素不是在其他元素之前,就是在其他元素之后。这里,元素之间的顺序非常重要。
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员