题目 ID: q-4769

强化学习算法:PPO(RLHF核心,稳且高效)、DPO(免奖励模型,迭代快)、GRPO(省显存)、SAC(适配连续控制)、RLHF(提升生成质量)

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团字节跳动