题目 ID: q-5143

在RLHF的第三阶段，PPO是最主流的强化学习算法。为什么选择PPO，而不是其他更简单的策略梯度算法（如REINFORCE）或者Q-learning系算法？

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

通用题库