刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！ - 专知VIP

会员服务 ·

46

ChatGPT · 李宏毅 ·

2022 年 12 月 9 日

刷爆的ChatGPT什么算法这么强！台大李宏毅老师国语讲解《ChatGPT (可能)是怎么炼成的》！

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

OpenAI 新上线的 ChatGPT 可谓是火爆出圈，这个对话模型可以回答后续问题，承认错误，挑战不正确的前提，还能帮你修改代码中的 bug……只要和它聊上几句，一会儿功夫它就能把问题给你解决了。例如用户要求：「ChatGPT 帮我解释一下文中正则表达式的含义。」ChatGPT：安排。密密麻麻的解释了一大段内容，应该是解释清楚了。

ChatGPT 使用与 InstructGPT 相同的方法——用人类反馈强化学习 (RLHF) 训练模型，但数据收集设置略有不同。ChatGPT 使用监督微调训练了一个初始模型：人类 AI 训练员提供对话，他们在对话中扮演双方——用户和 AI 助手，AI 训练员可以访问模型编写的对话回复，以帮助 AI 调整回复内容。

为了创建强化学习的奖励模型，该研究需要收集比较数据，其中包含两个或多个按质量排序的模型回复。该研究收集了 AI 训练员与聊天机器人的对话，并随机选择一条模型编写的消息，抽取几个备选回复，让 AI 训练员对这些回复进行排名。此外，该研究还使用近端策略优化算法（PPO）微调模型，并对整个过程进行了几次迭代。

ChatGPT 对 GPT-3.5 系列中的某个模型进行了微调，该模型于 2022 年初完成训练。ChatGPT 和 GPT 3.5 在 Azure AI 超级计算基础设施上进行了训练。

台大李宏毅老师：Chat GPT (可能)是怎么炼成的- GPT社会化的过程

参考链接： https://openai.com/blog/chatgpt/ https://twitter.com/search?q=ChatGPT&src=typed_query

成为VIP会员查看完整内容

相关内容

ChatGPT

ChatGPT（全名：Chat Generative Pre-trained Transformer），美国OpenAI 研发的聊天机器人程序 [1] ，于2022年11月30日发布。ChatGPT是人工智能技术驱动的自然语言处理工具，它能够通过学习和理解人类的语言来进行对话，还能根据聊天的上下文进行互动，真正像人类一样来聊天交流，甚至能完成撰写邮件、视频脚本、文案、翻译、代码，写论文任务。 [1] https://openai.com/blog/chatgpt/

ChatGPT核心技术：强化学习PPO算法

ChatGPT核心技术：强化学习PPO算法

专知会员服务

160+阅读 · 2023年2月13日

【哈工大SCIR】浅析ChatGPT的原理及应用

【哈工大SCIR】浅析ChatGPT的原理及应用

专知会员服务

188+阅读 · 2023年1月10日

台大李宏毅老师最新AACL2022教程《预训练语言模型》教程，261页ppt讲述预训练模型为什么Work与怎么用? 附视频

台大李宏毅老师最新AACL2022教程《预训练语言模型》教程，261页ppt讲述预训练模型为什么Work与怎么用? 附视频

专知会员服务

76+阅读 · 2022年12月18日

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

专知会员服务

103+阅读 · 2022年2月28日

台大李宏毅《机器学习》2021课程撒花完结！除了视频、PPT，还有人汇编了一本答疑书

专知会员服务

80+阅读 · 2021年8月9日

《算法偏见与公平性》教程55页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

专知会员服务

53+阅读 · 2021年3月28日

李宏毅《机器学习》国语课程(2021)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2021)来了！附Slides和视频！

专知会员服务

95+阅读 · 2021年3月1日

一图搞定ML！2020版机器学习技术路线图，35页ppt

一图搞定ML！2020版机器学习技术路线图，35页ppt

专知会员服务

94+阅读 · 2020年7月28日

李宏毅《机器学习2020版》正式开放上线：带你进行ML打怪升级！

李宏毅《机器学习2020版》正式开放上线：带你进行ML打怪升级！

专知会员服务

111+阅读 · 2020年3月7日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知会员服务

113+阅读 · 2019年12月13日

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

DeepMind用「强化学习」训练「正能量」聊天机器人：再也不用担心AI乱说话了！

DeepMind用「强化学习」训练「正能量」聊天机器人：再也不用担心AI乱说话了！

新智元

0+阅读 · 2022年10月5日

台大李宏毅联合CMU、Meta发起语音自监督学习挑战赛SUPERB，邀你参加

台大李宏毅联合CMU、Meta发起语音自监督学习挑战赛SUPERB，邀你参加

机器之心

1+阅读 · 2022年6月7日

【经验】深度强化学习训练与调参技巧

【经验】深度强化学习训练与调参技巧

深度强化学习实验室

3+阅读 · 2022年3月31日

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

专知

5+阅读 · 2022年2月28日

GPT-3胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

GPT-3胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

机器之心

0+阅读 · 2022年1月28日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

腾讯AI实验室

1+阅读 · 2021年11月11日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

中文课程！台大李宏毅机器学习公开课2019版上线

中文课程！台大李宏毅机器学习公开课2019版上线

全球人工智能

14+阅读 · 2019年3月18日

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子Ising模型中Kibble-Zurek机制的量子模拟实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

流化床洁净燃烧中颗粒速度脉动异性及反应性矩模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

蛋白激酶Pip5K1α在骨骼肌成肌细胞分化中的功能和机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

低秩矩阵恢复的非凸松弛模型的理论与数值求解方法

国家自然科学基金

0+阅读 · 2012年12月31日

新兴市场国家IFRS制定过程中的博弈及经济后果研究

国家自然科学基金

1+阅读 · 2012年12月31日

缺血性脑损伤介导的ErbB4胞内结构域分解的分子机制及作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

量子色动力学和强子物理若干前沿问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于信赖域的非线性方程组的无导数方法：理论、算法及应用

国家自然科学基金

1+阅读 · 2011年12月31日

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models

Arxiv

0+阅读 · 2023年2月10日

Short-Term Aggregated Residential Load Forecasting using BiLSTM and CNN-BiLSTM

Arxiv

0+阅读 · 2023年2月10日

Continual Learning of Language Models

Arxiv

0+阅读 · 2023年2月10日

A Categorical Archive of ChatGPT Failures

Arxiv

0+阅读 · 2023年2月10日

Regulating ChatGPT and other Large Generative AI Models

Arxiv

0+阅读 · 2023年2月9日

Exploring the Benefits of Training Expert Language Models over Instruction Tuning

Arxiv

0+阅读 · 2023年2月9日

A Compendium on Distributed Systems

Arxiv

0+阅读 · 2023年2月8日

On Grounded Planning for Embodied Tasks with Language Models

Arxiv

0+阅读 · 2023年2月7日

A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning

Arxiv

15+阅读 · 2021年9月6日

Overcoming Catastrophic Forgetting in Graph Neural Networks

Arxiv

14+阅读 · 2020年12月10日

VIP会员

相关主题

相关VIP内容

ChatGPT核心技术：强化学习PPO算法

ChatGPT核心技术：强化学习PPO算法

专知会员服务

160+阅读 · 2023年2月13日

【哈工大SCIR】浅析ChatGPT的原理及应用

【哈工大SCIR】浅析ChatGPT的原理及应用

专知会员服务

188+阅读 · 2023年1月10日

台大李宏毅老师最新AACL2022教程《预训练语言模型》教程，261页ppt讲述预训练模型为什么Work与怎么用? 附视频

台大李宏毅老师最新AACL2022教程《预训练语言模型》教程，261页ppt讲述预训练模型为什么Work与怎么用? 附视频

专知会员服务

76+阅读 · 2022年12月18日

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

专知会员服务

103+阅读 · 2022年2月28日

台大李宏毅《机器学习》2021课程撒花完结！除了视频、PPT，还有人汇编了一本答疑书

专知会员服务

80+阅读 · 2021年8月9日

《算法偏见与公平性》教程55页ppt，麻省理工2021深度学习导论课程MIT6.S191,课程

专知会员服务

53+阅读 · 2021年3月28日

李宏毅《机器学习》国语课程(2021)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2021)来了！附Slides和视频！

专知会员服务

95+阅读 · 2021年3月1日

一图搞定ML！2020版机器学习技术路线图，35页ppt

一图搞定ML！2020版机器学习技术路线图，35页ppt

专知会员服务

94+阅读 · 2020年7月28日

李宏毅《机器学习2020版》正式开放上线：带你进行ML打怪升级！

李宏毅《机器学习2020版》正式开放上线：带你进行ML打怪升级！

专知会员服务

111+阅读 · 2020年3月7日

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

Uber AI NeurIPS 2019《元学习meta-learning》教程，附92页PPT下载

专知会员服务

113+阅读 · 2019年12月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型中的检索与结构化增强生成综述

《实现多层防御多轮交战机制的扩展型随机齐射模型》2025年最新83页

【CMU博士论文】交互驱动的人体动作估计与生成

如何避免生成式人工智能在作战中失控失效

相关资讯

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

OpenAI超级对话模型ChatGPT发布！智能回答堪比雅思口语满分案例

新智元

29+阅读 · 2022年12月1日

DeepMind用「强化学习」训练「正能量」聊天机器人：再也不用担心AI乱说话了！

DeepMind用「强化学习」训练「正能量」聊天机器人：再也不用担心AI乱说话了！

新智元

0+阅读 · 2022年10月5日

台大李宏毅联合CMU、Meta发起语音自监督学习挑战赛SUPERB，邀你参加

台大李宏毅联合CMU、Meta发起语音自监督学习挑战赛SUPERB，邀你参加

机器之心

1+阅读 · 2022年6月7日

【经验】深度强化学习训练与调参技巧

【经验】深度强化学习训练与调参技巧

深度强化学习实验室

3+阅读 · 2022年3月31日

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

李宏毅《机器学习》国语课程(2022)来了！附Slides和视频！

专知

5+阅读 · 2022年2月28日

GPT-3胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

GPT-3胡言乱语怎么办？OpenAI：我们重新调教了一下，新版本更「听话」

机器之心

0+阅读 · 2022年1月28日

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

GPT-3回答问题不靠谱？OpenAI找来人类“调教师”，终于给教明白了

量子位

0+阅读 · 2022年1月28日

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

第二届腾讯“开悟”大赛初赛放榜，强化学习研究还能这么快乐

腾讯AI实验室

1+阅读 · 2021年11月11日

面试题：Word2Vec中为什么使用负采样？

面试题：Word2Vec中为什么使用负采样？

七月在线实验室

46+阅读 · 2019年5月16日

中文课程！台大李宏毅机器学习公开课2019版上线

中文课程！台大李宏毅机器学习公开课2019版上线

全球人工智能

14+阅读 · 2019年3月18日

相关基金

大规模参数估计的约束无导数优化信赖域方法

国家自然科学基金

1+阅读 · 2015年12月31日

回声干扰抑制中的自适应信号处理算法研究

国家自然科学基金

1+阅读 · 2015年12月31日

量子Ising模型中Kibble-Zurek机制的量子模拟实验研究

国家自然科学基金

0+阅读 · 2014年12月31日

流化床洁净燃烧中颗粒速度脉动异性及反应性矩模型研究

国家自然科学基金

0+阅读 · 2013年12月31日

蛋白激酶Pip5K1α在骨骼肌成肌细胞分化中的功能和机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

低秩矩阵恢复的非凸松弛模型的理论与数值求解方法

国家自然科学基金

0+阅读 · 2012年12月31日

新兴市场国家IFRS制定过程中的博弈及经济后果研究

国家自然科学基金

1+阅读 · 2012年12月31日

缺血性脑损伤介导的ErbB4胞内结构域分解的分子机制及作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

量子色动力学和强子物理若干前沿问题研究

国家自然科学基金

0+阅读 · 2011年12月31日

基于信赖域的非线性方程组的无导数方法：理论、算法及应用

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

PFGM++: Unlocking the Potential of Physics-Inspired Generative Models

Arxiv

0+阅读 · 2023年2月10日

Short-Term Aggregated Residential Load Forecasting using BiLSTM and CNN-BiLSTM

Arxiv

0+阅读 · 2023年2月10日

Continual Learning of Language Models

Arxiv

0+阅读 · 2023年2月10日

A Categorical Archive of ChatGPT Failures

Arxiv

0+阅读 · 2023年2月10日

Regulating ChatGPT and other Large Generative AI Models

Arxiv

0+阅读 · 2023年2月9日

Exploring the Benefits of Training Expert Language Models over Instruction Tuning

Arxiv

0+阅读 · 2023年2月9日

A Compendium on Distributed Systems

Arxiv

0+阅读 · 2023年2月8日

On Grounded Planning for Embodied Tasks with Language Models

Arxiv

0+阅读 · 2023年2月7日

A Farewell to the Bias-Variance Tradeoff? An Overview of the Theory of Overparameterized Machine Learning

Arxiv

15+阅读 · 2021年9月6日

Overcoming Catastrophic Forgetting in Graph Neural Networks

Arxiv

14+阅读 · 2020年12月10日

微信扫码咨询专知VIP会员