OpenAI后训练揭秘：ChatGPT方法与挑战

🚀 DeepSeek 卡顿？本站免费提供满血 DeepSeek-R1，流畅、可联网！不限量使用！

本文于 2025-02-19 20:07 更新，部分内容具有时效性，如有失效，请留言

这份文档是 OpenAI 前后训练负责人 Barret Zoph 和 John Schulman（也是 OpenAI 联合创始人）在斯坦福大学演讲的 PPT，主要分享了他们在 OpenAI 开发 ChatGPT 的后训练经验。由于演讲没有录像，这份 PPT 是了解这段演讲的主要资料。

重点内容包括：

后训练的定义和重要性：它是模型开发的最后阶段，目标是让模型像助手一样，并为实际应用做好准备。不同于预训练，后训练计算量小、迭代快，并使用 RLHF 技术。
ChatGPT 的早期发展：从 GPT-3 到 ChatGPT，团队如何从小规模开始，逐步扩展功能，并最终决定公开发布。
技术细节：介绍了后训练的三个主要组成部分：SFT、RM 和 RL，以及如何应对模型复杂性增长、拼写错误、过度拒绝、政治偏见和虚假信息等问题。
开放性问题：讨论了获取高质量人类反馈、模型规范定义和保持模型多样性等方面的挑战。
两个时代的pipelines：总结了不同的模型训练流程。
推荐阅读：推荐了与后训练相关的论文和博客。

原文：https://docs.google.com/presentation/d/11KWCKUORnPpVMSY6vXgBeFSWo7fJcuGQ9yuR6vC1pzE/edit?usp=sharing

(adsbygoogle = window.adsbygoogle || []).push({});

作者: Barret Zoph & John Schulman

引言

Barret Zoph

之前与 John 在 OpenAI 共同领导后训练工作

John Schulman

目前在 Anthropic 工作
OpenAI 的联合创始人之一，之前与 Barret 共同领导后训练工作

我们合作的历史

2022 年 9 月开始合作
致力于开发一个可安全部署的对齐聊天机器人
最初团队被称为“RL”，只有少数几个人
ChatGPT 最初被设想为一个“低调的研究预览”

什么是后训练

什么是后训练？

使模型表现得像助手并遵循正确的格式
是模型投入生产前的最后阶段
通常与产品团队关系最为密切

<img fetchpriority="high" decoding="async" class="aligncenter size-full wp-image-21526" title="ChatGPT后训练方法在一次演讲中公开，PPT开放下载-1" src="data:image/svg+xml,%3Csvg%20xmlns='http://www.w3.org/2000/svg'%20viewBox='0%200%201695%20324'%3E%3C/svg%3E" alt="ChatGPT后训练方法在一次演讲中公开，PPT开放下载-1" width="1695" height="324"

OpenAI后训练揭秘：ChatGPT方法与挑战