← 返回题库查看进度看板

题目 ID: q-4585

为什么选择DPO而不是其他强化学习算法如PPO？

频次 3

NLP与大模型

当前状态：未收藏、未完成

常见追问

4. 项目细节：为什么不用DPO、PPO等经典强化学习方法？
项目细节:为什么不用一些经典的强化学习方法，如DPO、PPO
为什么使用dpo，不使用其他的强化学习算法？

常见公司

美团未知