题目 ID: q-4430

讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式
  • 介绍下RLHF的基本流程,与DPO的差异是什么?
  • 可以讲一下RLHF的基本流程吗?并写一下PPO和DPO的Loss表达式。

常见公司

阿里巴巴小米