题目 ID: q-4769

强化学习算法：PPO（RLHF核心，稳且高效）、DPO（免奖励模型，迭代快）、GRPO（省显存）、SAC（适配连续控制）、RLHF（提升生成质量）

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团字节跳动