这份文档是 OpenAI 前后训练负责人 Barret Zoph 和 John Schulman(也是 OpenAI 联合创始人)在斯坦福大学演讲的 PPT,主要分享了他们在 OpenAI 开发 ChatGPT 的后训练经验。由于演讲没有录像,这份 PPT 是了解这段演讲的主要资料。
重点内容包括:
- 后训练的定义和重要性:它是模型开发的最后阶段,目标是让模型像助手一样,并为实际应用做好准备。不同于预训练,后训练计算量小、迭代快,并使用 RLHF 技术。
- ChatGPT 的早期发展:从 GPT-3 到 ChatGPT,团队如何从小规模开始,逐步扩展功能,并最终决定公开发布。
- 技术细节:介绍了后训练的三个主要组成部分:SFT、RM 和 RL,以及如何应对模型复杂性增长、拼写错误、过度拒绝、政治偏见和虚假信息等问题。
- 开放性问题:讨论了获取高质量人类反馈、模型规范定义和保持模型多样性等方面的挑战。
- 两个时代的pipelines:总结了不同的模型训练流程。
- 推荐阅读:推荐了与后训练相关的论文和博客。
原文:https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing
(adsbygoogle = window.adsbygoogle || []).push({});
作者: Barret Zoph & John Schulman
引言
Barret Zoph
- 之前与 John 在 OpenAI 共同领导后训练工作
John Schulman
- 目前在 Anthropic 工作
- OpenAI 的联合创始人之一,之前与 Barret 共同领导后训练工作
我们合作的历史
- 2022 年 9 月开始合作
- 致力于开发一个可安全部署的对齐聊天机器人
- 最初团队被称为“RL”,只有少数几个人
- ChatGPT 最初被设想为一个“低调的研究预览”
什么是后训练
什么是后训练?
- 使模型表现得像助手并遵循正确的格式
- 是模型投入生产前的最后阶段
- 通常与产品团队关系最为密切
<img fetchpriority="high" decoding="async" class="aligncenter size-full wp-image-21526" title="ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1" src="data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%201695%20324'%3E%3C/svg%3E" alt="ChatGPT后训练方法在一次演讲中公开,PPT开放下载-1" width="1695" height="324"
暂无评论