Large Language Models (LLMs) demonstrate impressive capabilities, yet their outputs often suffer from misalignment with human preferences due to the inadequacy of weak supervision and a lack of fine-grained control. Training-time alignment methods like Reinforcement Learning from Human Feedback (RLHF) face prohibitive costs in expert supervision and inherent scalability limitations, offering limited dynamic control during inference. Consequently, there is an urgent need for scalable and adaptable alignment mechanisms. To address this, we propose W2S-AlignTree, a pioneering plug-and-play inference-time alignment framework that synergistically combines Monte Carlo Tree Search (MCTS) with the Weak-to-Strong Generalization paradigm for the first time. W2S-AlignTree formulates LLM alignment as an optimal heuristic search problem within a generative search tree. By leveraging weak model's real-time, step-level signals as alignment proxies and introducing an Entropy-Aware exploration mechanism, W2S-AlignTree enables fine-grained guidance during strong model's generation without modifying its parameters. The approach dynamically balances exploration and exploitation in high-dimensional generation search trees. Experiments across controlled sentiment generation, summarization, and instruction-following show that W2S-AlignTree consistently outperforms strong baselines. Notably, W2S-AlignTree raises the performance of Llama3-8B from 1.89 to 2.19, a relative improvement of 15.9 on the summarization task.


翻译:大型语言模型(LLMs)展现出令人印象深刻的能力,但其输出常因弱监督的不足和缺乏细粒度控制而与人类偏好存在偏差。训练时对齐方法(如基于人类反馈的强化学习(RLHF))在专家监督成本和固有可扩展性限制方面面临高昂代价,且在推理过程中提供的动态控制有限。因此,迫切需要可扩展且适应性强的对齐机制。为此,我们提出了W2S-AlignTree,一种开创性的即插即用推理时对齐框架,首次将蒙特卡洛树搜索(MCTS)与弱到强泛化范式协同结合。W2S-AlignTree将LLM对齐问题形式化为生成搜索树内的最优启发式搜索问题。通过利用弱模型的实时、步骤级信号作为对齐代理,并引入熵感知探索机制,W2S-AlignTree能够在强模型生成过程中提供细粒度指导,而无需修改其参数。该方法在高维生成搜索树中动态平衡探索与利用。在受控情感生成、摘要和指令跟随任务上的实验表明,W2S-AlignTree始终优于强基线模型。值得注意的是,在摘要任务中,W2S-AlignTree将Llama3-8B的性能从1.89提升至2.19,相对提升了15.9%。

0
下载
关闭预览

相关内容

【NeurIPS2022】通过模型转换的可解释强化学习
专知会员服务
38+阅读 · 2022年10月4日
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员