调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限 - 专知VIP

会员服务 ·

24

人类反馈强化学习 (RLHF) · 大模型 · 强化学习 ·

2023 年 8 月 1 日

调查分析两百余篇大模型论文，数十位研究者一文综述RLHF的挑战与局限

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

转载机器之心机器之心编辑部RLHF 方法虽然强大，但它并没有解决开发人性化人工智能的基本挑战。

自 ChatGPT 问世，OpenAI 使用的训练方法人类反馈强化学习（RLHF）就备受关注，已经成为微调大型语言模型（LLM）的核心方法。RLHF 方法在训练中使用人类反馈，以最小化无益、失真或偏见的输出，使 AI 模型与人类价值观对齐。

然而，RLHF 方法也存在一些缺陷，最近来自 MIT CSAIL、哈佛大学、哥伦比亚大学等机构的数十位研究者联合发表了一篇综述论文，对两百余篇领域内的研究论文进行分析探讨，系统地研究了 RLHF 方法的缺陷。

论文地址：https://huggingface.co/papers/2307.15217

总的来说，该论文强调了 RLHF 的局限性，并表明开发更安全的 AI 系统需要使用多方面方法（multi-faceted approach）。研究团队做了如下工作：

调查了 RLHF 和相关方法的公开问题和基本限制； * 概述了在实践中理解、改进和补充 RLHF 的方法； * 提出审计和披露标准，以改善社会对 RLHF 系统的监督。

具体来说，论文的核心内容包括以下三个部分：

1.RLHF 面临的具体挑战。研究团队对 RLHF 相关问题进行了分类和调查，并区分了 RLHF 面临的挑战与 RLHF 的根本局限性，前者更容易解决，可以在 RLHF 框架内使用改进方法来解决，而后者则必须通过其他方法来解决对齐问题。

将 RLHF 纳入更广泛的技术安全框架。论文表明 RLHF 并非开发安全 AI 的完整框架，并阐述了有助于更好地理解、改进和补充 RLHF 的一些方法，强调了多重冗余策略（multiple redundant strategy）对减少问题的重要性。
治理与透明度。该论文分析探讨了改进行业规范面临的挑战。例如，研究者讨论了让使用 RLHF 训练 AI 系统的公司披露训练细节是否有用。

我们来看下论文核心部分的结构和基本内容。

如下图 1 所示，该研究分析了与 RLHF 相关 3 个过程：收集人类反馈、奖励建模和策略优化。其中，反馈过程引出人类对模型输出的评估；奖励建模过程使用监督学习训练出模仿人类评估的奖励模型；策略优化过程优化人工智能系统，以产生奖励模型评估更优的输出。论文第三章从这三个过程以及联合训练奖励模型和策略四个方面探讨了 RLHF 方法存在的问题和挑战。

论文第三章总结的问题表明：严重依赖 RLHF 来开发人工智能系统会带来安全风险。虽然 RLHF 很有用，但它并没有解决开发人性化人工智能的基本挑战。

研究团队认为：任何单一策略都不应被视为综合解决方案。更好的做法是采用多种安全方法的「深度防御」，论文第四章从理解、改进、补充 RLHF 这几个方面详细阐述了提高 AI 安全性的方法。

论文第五章概述了 RLHF 治理面临的风险因素和审计措施。

总结

该研究发现，实践中很多问题来源于 RLHF 的根本局限性，必须采用非 RLHF 的方法来避免或弥补。因此，该论文强调两种策略的重要性：(1) 根据 RLHF 和其他方法的根本局限性来评估技术进步，(2) 通过采取深度防御安全措施和与科学界公开共享研究成果，来应对 AI 的对齐问题。

此外，该研究阐明一些挑战和问题并非是 RLHF 所独有的，如 RL 策略的难题，还有一些是 AI 对齐的基本问题。

成为VIP会员查看完整内容

49

相关内容

人类反馈强化学习 (RLHF)

人类反馈强化学习 (RLHF)

西交大最新《ChatGPT:人工智能生成的内容、挑战与解决方案》综述

西交大最新《ChatGPT:人工智能生成的内容、挑战与解决方案》综述

专知会员服务

145+阅读 · 2023年6月3日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

88+阅读 · 2023年4月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

199+阅读 · 2023年2月17日

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

专知会员服务

106+阅读 · 2023年1月10日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

38+阅读 · 2022年10月4日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知会员服务

113+阅读 · 2022年8月26日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

194+阅读 · 2021年6月10日

【干货书】PyTorch 深度学习，255页pdf

【干货书】PyTorch 深度学习，255页pdf

专知会员服务

279+阅读 · 2021年4月3日

【UTSA】最新《可解释人工智能XAI：机会与挑战》， 25页pdf119篇文献详述XAI技术进展

【UTSA】最新《可解释人工智能XAI：机会与挑战》， 25页pdf119篇文献详述XAI技术进展

专知会员服务

160+阅读 · 2020年6月24日

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

机器之心

0+阅读 · 2023年4月5日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知

1+阅读 · 2022年8月26日

消费级GPU成功运行1760亿参数大模型

消费级GPU成功运行1760亿参数大模型

机器之心

1+阅读 · 2022年8月19日

哈佛医学院等最新《深度无监督领域适应UDA》综述，49页pdf阐述研究UDA进展与展望

哈佛医学院等最新《深度无监督领域适应UDA》综述，49页pdf阐述研究UDA进展与展望

专知

1+阅读 · 2022年8月17日

「基于深度学习的 SQL 生成」2022研究综述

「基于深度学习的 SQL 生成」2022研究综述

专知

0+阅读 · 2022年8月12日

利用概率学实现组合优化层，新研究构建Julia开源包InferOpt.jl

利用概率学实现组合优化层，新研究构建Julia开源包InferOpt.jl

机器之心

0+阅读 · 2022年8月12日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【NLP】万字长文概述NLP中的深度学习技术

【NLP】万字长文概述NLP中的深度学习技术

产业智能官

18+阅读 · 2019年7月7日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

全球人工智能

12+阅读 · 2019年2月28日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

LPS经鼻暴露对A53T-α-synuclein帕金森小鼠模型发生发展的协同效应及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

48+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images

Arxiv

0+阅读 · 2023年9月20日

On the dynamics of multi agent nonlinear filtering and learning

Arxiv

0+阅读 · 2023年9月19日

Coreset selection can accelerate quantum machine learning models with provable generalization

Arxiv

0+阅读 · 2023年9月19日

Toward efficient resource utilization at edge nodes in federated learning

Arxiv

0+阅读 · 2023年9月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

VIP会员

相关主题

人类反馈强化学习 (RLHF)

相关VIP内容

西交大最新《ChatGPT:人工智能生成的内容、挑战与解决方案》综述

西交大最新《ChatGPT:人工智能生成的内容、挑战与解决方案》综述

专知会员服务

145+阅读 · 2023年6月3日

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

如何走向AGI？DeepMind研究科学家Jack 牛津博士论文《迈向真正开放式强化学习》探究解答，217页pdf

专知会员服务

88+阅读 · 2023年4月22日

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

ChatGPT背后的大模型最新有哪些？最新最全《Transformer预训练模型分类》论文，36页pdf详述大模型技术目录

专知会员服务

199+阅读 · 2023年2月17日

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

Transformer如何用到强化学习中? 清华等最新《Transformer强化学习》综述论文详述进展

专知会员服务

106+阅读 · 2023年1月10日

Jeff Dean署名《深度学习稀疏专家模型》综述论文

Jeff Dean署名《深度学习稀疏专家模型》综述论文

专知会员服务

38+阅读 · 2022年10月4日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知会员服务

113+阅读 · 2022年8月26日

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

Nat Rev Mol Cell Bio｜用人工智能预测蛋白质结构的前景和机遇

专知会员服务

19+阅读 · 2022年5月1日

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

复旦最新「Transformers全面综述」论文，40页pdf概述Transformers各种变体模型与应用

专知会员服务

194+阅读 · 2021年6月10日

【干货书】PyTorch 深度学习，255页pdf

【干货书】PyTorch 深度学习，255页pdf

专知会员服务

279+阅读 · 2021年4月3日

【UTSA】最新《可解释人工智能XAI：机会与挑战》， 25页pdf119篇文献详述XAI技术进展

【UTSA】最新《可解释人工智能XAI：机会与挑战》， 25页pdf119篇文献详述XAI技术进展

专知会员服务

160+阅读 · 2020年6月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

130亿参数，8个A100训练，UC伯克利发布对话模型Koala

机器之心

0+阅读 · 2023年4月5日

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

最新《自动化机器学习》报告，73页ppt建模阐述AutoML进展，附书籍

专知

1+阅读 · 2022年8月26日

消费级GPU成功运行1760亿参数大模型

消费级GPU成功运行1760亿参数大模型

机器之心

1+阅读 · 2022年8月19日

哈佛医学院等最新《深度无监督领域适应UDA》综述，49页pdf阐述研究UDA进展与展望

哈佛医学院等最新《深度无监督领域适应UDA》综述，49页pdf阐述研究UDA进展与展望

专知

1+阅读 · 2022年8月17日

「基于深度学习的 SQL 生成」2022研究综述

「基于深度学习的 SQL 生成」2022研究综述

专知

0+阅读 · 2022年8月12日

利用概率学实现组合优化层，新研究构建Julia开源包InferOpt.jl

利用概率学实现组合优化层，新研究构建Julia开源包InferOpt.jl

机器之心

0+阅读 · 2022年8月12日

多项NLP任务新SOTA，Facebook提出预训练模型BART

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

【NLP】万字长文概述NLP中的深度学习技术

【NLP】万字长文概述NLP中的深度学习技术

产业智能官

18+阅读 · 2019年7月7日

万字长文概述NLP中的深度学习技术

万字长文概述NLP中的深度学习技术

全球人工智能

12+阅读 · 2019年2月28日

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

FAIR何恺明团队提出全景分割，开辟图像分割新方向（附论文）

论智

12+阅读 · 2018年1月5日

相关基金

LPS经鼻暴露对A53T-α-synuclein帕金森小鼠模型发生发展的协同效应及机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

SDN数据平面中大规模流表的高性能查找方法研究

国家自然科学基金

4+阅读 · 2015年12月31日

基于自主学习的Ad hoc Agent序贯决策研究

国家自然科学基金

44+阅读 · 2015年12月31日

大规模模糊RDF数据管理关键技术研究

国家自然科学基金

8+阅读 · 2015年12月31日

协同特征CAD中支持多用户意图融合的关键技术研究

国家自然科学基金

3+阅读 · 2015年12月31日

基于决策模型和预备电位的运动想象BCI研究

国家自然科学基金

3+阅读 · 2015年12月31日

CGF战场空间认知行为建模研究

国家自然科学基金

48+阅读 · 2014年12月31日

海量Web用户生成内容物化关键技术

国家自然科学基金

2+阅读 · 2014年12月31日

基于UGC的应急响应决策支持系统关键技术研究

国家自然科学基金

12+阅读 · 2014年12月31日

基于BIM的建筑生命周期环境与经济评价及优化设计方法研究

国家自然科学基金

3+阅读 · 2014年12月31日

相关论文

Uncovering the effects of model initialization on deep model generalization: A study with adult and pediatric Chest X-ray images

Arxiv

0+阅读 · 2023年9月20日

On the dynamics of multi agent nonlinear filtering and learning

Arxiv

0+阅读 · 2023年9月19日

Coreset selection can accelerate quantum machine learning models with provable generalization

Arxiv

0+阅读 · 2023年9月19日

Toward efficient resource utilization at edge nodes in federated learning

Arxiv

0+阅读 · 2023年9月19日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

215+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

473+阅读 · 2023年3月31日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

A survey and taxonomy of loss functions in machine learning

Arxiv

25+阅读 · 2023年1月13日

微信扫码咨询专知VIP会员