题目 ID: q-4585

为什么选择DPO而不是其他强化学习算法如PPO?

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 4. 项目细节:为什么不用DPO、PPO等经典强化学习方法?
  • 项目细节:为什么不用一些经典的强化学习方法,如DPO、PPO
  • 为什么使用dpo,不使用其他的强化学习算法?

常见公司

美团未知