Tabular data serves as the backbone of modern data analysis and scientific research. While Large Language Models (LLMs) fine-tuned via Supervised Fine-Tuning (SFT) have significantly improved natural language interaction with such structured data, they often fall short in handling the complex, multi-step reasoning and robust code execution required for real-world table tasks. Reinforcement Learning (RL) offers a promising avenue to enhance these capabilities, yet its application in the tabular domain faces three critical hurdles: the scarcity of high-quality agentic trajectories with closed-loop code execution and environment feedback on diverse table structures, the extreme heterogeneity of feedback signals ranging from rigid SQL execution to open-ended data interpretation, and the risk of catastrophic forgetting of general knowledge during vertical specialization. To overcome these challenges and unlock advanced reasoning on complex tables, we introduce \textbf{TableGPT-R1}, a specialized tabular model built on a systematic RL framework. Our approach integrates a comprehensive data engineering pipeline that synthesizes difficulty-stratified agentic trajectories for both supervised alignment and RL rollouts, a task-adaptive reward system that combines rule-based verification with a criteria-injected reward model and incorporates process-level step reward shaping with behavioral regularization, and a multi-stage training framework that progressively stabilizes reasoning before specializing in table-specific tasks. Extensive evaluations demonstrate that TableGPT-R1 achieves state-of-the-art performance on authoritative benchmarks, significantly outperforming baseline models while retaining robust general capabilities. Our model is available at https://huggingface.co/tablegpt/TableGPT-R1.


翻译:表格数据是现代数据分析和科学研究的支柱。尽管通过监督微调(SFT)的大型语言模型(LLMs)显著改善了与此类结构化数据的自然语言交互,但在处理现实世界表格任务所需的复杂多步推理和鲁棒代码执行方面,它们往往表现不足。强化学习(RL)为增强这些能力提供了一条有前景的途径,但其在表格领域的应用面临三个关键障碍:缺乏在多样化表格结构上具有闭环代码执行和环境反馈的高质量智能体轨迹、反馈信号极度异构(从严格的SQL执行到开放式数据解读),以及在垂直专业化过程中存在灾难性遗忘通用知识的风险。为了克服这些挑战并在复杂表格上实现高级推理,我们引入了 \textbf{TableGPT-R1},这是一个建立在系统性RL框架上的专业化表格模型。我们的方法整合了一个全面的数据工程流水线,该流水线合成了用于监督对齐和RL推演的难度分层智能体轨迹;一个任务自适应奖励系统,该系统结合了基于规则的验证与标准注入的奖励模型,并融入了过程级步骤奖励塑形与行为正则化;以及一个多阶段训练框架,该框架在专注于表格特定任务之前逐步稳定推理能力。广泛的评估表明,TableGPT-R1在权威基准测试中实现了最先进的性能,显著优于基线模型,同时保持了强大的通用能力。我们的模型可在 https://huggingface.co/tablegpt/TableGPT-R1 获取。

0
下载
关闭预览

相关内容

【WWW2024】RecDCL: 双重对比学习用于推荐
专知会员服务
23+阅读 · 2024年1月30日
Kaggle知识点:伪标签Pseudo Label
AINLP
40+阅读 · 2020年8月9日
【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员