题目 ID: q-4578
对比RLHF、PPO和DPO算法的技术差异、优缺点及适用场景
NLP与大模型
当前状态:未收藏、未完成
常见追问
- 6.PPO和 DPO 的主要思想是什么, DPO 相比 PPO 的 RLHF 做了哪些改进,除此之外还知道哪些 RL 算法,知道 DeepSeek 的 GRPO 吗
- PPO和 DPO 的主要思想是什么,DPO 相比 PPO的 RLHF 做了哪些改进,除此之外还知道哪些 RL算法
- 请对比RLHF、PPO、DPO算法的技术差异、优缺点及适用场景
常见公司
腾讯字节跳动