摘要
强化学习(RL)已成为现代 AI 的基石 —— 从训练机器人行走,到通过 RLHF 将大语言模型与人类偏好对齐。这些突破的核心,是一个看似简单却影响深远的算法 —— 近端策略优化(Proximal Policy Optimization,PPO),由 John Schulman、Filip Wolski、Prafulla Dhariwal、Alec Radford 和 Oleg Klimov 于 2017 年在 OpenAI 提出。
PPO 提出了一族新的策略梯度方法,在与环境交互采样数据和使用随机梯度上升优化"替代"目标函数之间交替进行。与标准策略梯度方法每个数据样本只做一次梯度更新不同,PPO 引入了一种新颖的裁剪目标函数,使得同一批数据可以进行多轮小批量更新,而不会导致灾难性的策略大幅变化。其结果是:PPO 继承了信赖域策略优化(TRPO)的稳定性,同时实现大幅简化 —— 相比 vanilla 策略梯度只需修改几行代码。
实验结果表明 PPO 在广泛的基准测试中表现出色:连续控制任务(MuJoCo)、复杂的 3D 人形运动控制(Roboschool)以及 Atari 游戏。PPO 在采样效率、简洁性和运行时间之间实现了出色的平衡。
为什么这篇论文今天仍然重要? PPO 可以说是深度学习时代最有影响力的 RL 算法。它成为了机器人训练、游戏 AI 的默认算法,更为关键的是 —— 它是 RLHF 流水线的核心优化引擎,ChatGPT、Claude、Gemini 等大语言模型的人类偏好对齐都依赖于它。理解 PPO 是从事 AI 对齐、LLM 训练或现代 RL 系统研究的必备前置知识。