We study LLMs for tabular prediction with mixed text, numeric, and categorical fields. We introduce TabGemma, a schema-agnostic in-context learner that treats rows as sequences and tackles two practical hurdles when adapting pretrained LLMs for tabular predictions: unstable numeric tokenization and limited context size. We propose to canonicalize numbers via signed scientific notation and continue pretraining of a 12B Gemma 3 model with a target imputation objective using a large-scale real world dataset. For inference, we use a compact n-gram-based retrieval to select informative exemplars that fit within a 128k-token window. On semantically rich benchmarks, TabGemma establishes a new state of the art on classification across low- and high-data regimes and improves monotonically with more context rows. For regression, it is competitive at small sample sizes but trails conventional approaches as data grows. Our results show that LLMs can be effective tabular in-context learners on highly semantic tasks when paired with dedicated numeric handling and context retrieval, while motivating further advances in numeric modeling and long-context scaling.


翻译:我们研究大型语言模型(LLM)在包含文本、数值和分类字段的混合表格预测任务中的应用。本文提出TabGemma,一种与模式无关的上下文学习模型,将表格行视为序列处理,并解决了将预训练LLM适配于表格预测时面临的两个实际挑战:数值标记化的不稳定性与有限上下文长度。我们提出通过带符号的科学记数法对数值进行规范化,并基于大规模真实世界数据集,以目标插补为训练目标,对12B参数的Gemma 3模型进行持续预训练。在推理阶段,我们采用紧凑的n-gram检索方法,筛选出信息量丰富的示例,使其适配于128k标记的上下文窗口。在语义丰富的基准测试中,TabGemma在低数据量和高数据量场景下的分类任务上均取得了新的最优性能,且性能随上下文行数增加而单调提升。在回归任务中,该模型在小样本规模下具有竞争力,但随着数据量增加,其表现落后于传统方法。我们的结果表明,当配备专门的数值处理机制与上下文检索策略时,LLM能够在高度语义化的任务中成为有效的表格上下文学习器,同时该研究也为数值建模与长上下文扩展的进一步进展提供了动力。

0
下载
关闭预览

相关内容

UTC: 用于视觉对话的任务间对比学习的统一Transformer
专知会员服务
14+阅读 · 2022年5月4日
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
VIP会员
相关资讯
图机器学习 2.2-2.4 Properties of Networks, Random Graph
图与推荐
10+阅读 · 2020年3月28日
Single-Shot Object Detection with Enriched Semantics
统计学习与视觉计算组
14+阅读 · 2018年8月29日
自然语言处理(二)机器翻译 篇 (NLP: machine translation)
DeepLearning中文论坛
12+阅读 · 2015年7月1日
相关基金
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员