LLMs have shown the capacity to improve their performance on reasoning tasks through reflecting on their mistakes, and acting with these reflections in mind. However, continual reflections of the same LLM onto itself exhibit degeneration of thought, where the LLM continues to repeat the same errors again and again even with the knowledge that its wrong. To address this problem, we instead introduce multi-agent with multi-persona debators as the method to generate reflections. Through out extensive experimentation, we've found that the leads to better diversity of in the reflections generated by the llm agent. We demonstrate an accuracy of 47% EM HotPot QA (question answering) and 82.7% on HumanEval (programming), both performances surpassing reflection with a single llm.


翻译:大型语言模型已展现出通过反思错误并在后续推理中借鉴这些反思来提升推理任务性能的能力。然而,同一语言模型的持续自我反思会导致思维退化现象,即模型即使意识到错误仍会反复重复相同错误。为解决此问题,我们引入基于多角色辩论者的多智能体系统作为生成反思的方法。通过大量实验,我们发现该方法能显著提升语言模型智能体生成反思的多样性。实验结果表明,在HotPot QA(问答)任务中达到47%的精确匹配率,在HumanEval(编程)任务中达到82.7%的准确率,两项性能均超越单语言模型的反思机制。

0
下载
关闭预览

相关内容

【NeurIPS2019】图变换网络:Graph Transformer Network
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
VIP会员
相关基金
国家自然科学基金
17+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
51+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员