大型语言模型(LLM)展现出了卓越的能力,且越来越多的研究者开始关注将其作为智能体——能够将复杂的用自然语言表达的人类目标转换为在数字环境中(如网页浏览器)执行的一系列动作的系统。实现这一目标需要两个核心能力:首先是理解任意且组合性的语言输入的能力;其次是学习未知环境的能力,使得语言目标能够在有效的多步骤决策中得到实现。本论文解决了这两个挑战。
在第一部分,我介绍了树投影(Tree Projections)这一框架,用于理解变换器(transformer)如何构建组合结构。接着,我展示了一系列基于树投影的结果,阐明了组合泛化、深刻理解(grokking)和样本高效学习在变换器中的机制。虽然树投影有助于解释成功的泛化,但先前的研究表明,标准的变换器在处理深度递归时存在困难,因为它们缺乏应对无界层次深度的机制。为了解决这个问题,我提出了推送层(Pushdown Layers),这是一种通过向变换器中添加基于栈的记忆来进行架构增强的方法。推送层在需要嵌套或递归推理的任务上提升了样本效率和泛化能力。
在第二部分,我介绍了NNetNav和BAGEL,这两种方法支持在网页环境中的无监督、开放式探索,使模型能够在没有人工监督的情况下自动为新网站收集训练数据。我们最好的结果来自于使用NNetNav收集的示范对大型语言模型进行微调,NNetNav利用语言的层次结构来引导探索策略。使用NNetNav,我们从20个真实网站收集了10,000个示范,并对一个8B模型进行了微调,创下了无监督方法的新最佳成绩,并在多个浏览器基准测试中超越了零-shot的GPT-4。
综合来看,这些贡献使我们更接近于开发能够处理语言指令复杂性并能通过与环境互动自主学习的数字语言智能体。
https://searchworks.stanford.edu/view/in00000451497