题目 ID: q-4585 为什么选择DPO而不是其他强化学习算法如PPO? 频次 3 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 4. 项目细节:为什么不用DPO、PPO等经典强化学习方法?项目细节:为什么不用一些经典的强化学习方法,如DPO、PPO为什么使用dpo,不使用其他的强化学习算法? 常见公司 美团未知