【斯坦福博士论文】为大型语言模型构建交互学习管道

大型语言模型（LLM）展现出了卓越的能力，且越来越多的研究者开始关注将其作为智能体——能够将复杂的用自然语言表达的人类目标转换为在数字环境中（如网页浏览器）执行的一系列动作的系统。实现这一目标需要两个核心能力：首先是理解任意且组合性的语言输入的能力；其次是学习未知环境的能力，使得语言目标能够在有效的多步骤决策中得到实现。本论文解决了这两个挑战。

在第一部分，我介绍了树投影（Tree Projections）这一框架，用于理解变换器（transformer）如何构建组合结构。接着，我展示了一系列基于树投影的结果，阐明了组合泛化、深刻理解（grokking）和样本高效学习在变换器中的机制。虽然树投影有助于解释成功的泛化，但先前的研究表明，标准的变换器在处理深度递归时存在困难，因为它们缺乏应对无界层次深度的机制。为了解决这个问题，我提出了推送层（Pushdown Layers），这是一种通过向变换器中添加基于栈的记忆来进行架构增强的方法。推送层在需要嵌套或递归推理的任务上提升了样本效率和泛化能力。

在第二部分，我介绍了NNetNav和BAGEL，这两种方法支持在网页环境中的无监督、开放式探索，使模型能够在没有人工监督的情况下自动为新网站收集训练数据。我们最好的结果来自于使用NNetNav收集的示范对大型语言模型进行微调，NNetNav利用语言的层次结构来引导探索策略。使用NNetNav，我们从20个真实网站收集了10,000个示范，并对一个8B模型进行了微调，创下了无监督方法的新最佳成绩，并在多个浏览器基准测试中超越了零-shot的GPT-4。

综合来看，这些贡献使我们更接近于开发能够处理语言指令复杂性并能通过与环境互动自主学习的数字语言智能体。

https://searchworks.stanford.edu/view/in00000451497

成为VIP会员查看完整内容

相关内容

博士论文

关注 116

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

【博士论文】面向下游任务的语言模型优化：一种后训练视角

专知会员服务

11+阅读 · 7月6日

【斯坦福大学博士论文】构建大语言模型的交互式学习流程管线

专知会员服务

20+阅读 · 6月13日

【阿姆斯特丹博士论文】多语言性与多文化主义：迈向高效和包容的神经语言模型

专知会员服务

9+阅读 · 6月4日

【NTU博士论文】让语言模型更接近人类学习者

专知会员服务

18+阅读 · 5月3日