题目 ID: q-4578

对比RLHF、PPO和DPO算法的技术差异、优缺点及适用场景

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 6.PPO和 DPO 的主要思想是什么, DPO 相比 PPO 的 RLHF 做了哪些改进,除此之外还知道哪些 RL 算法,知道 DeepSeek 的 GRPO 吗
  • PPO和 DPO 的主要思想是什么,DPO 相比 PPO的 RLHF 做了哪些改进,除此之外还知道哪些 RL算法
  • 请对比RLHF、PPO、DPO算法的技术差异、优缺点及适用场景

常见公司

腾讯字节跳动