题目 ID: q-4430 讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 8.讲一下 RLHF 的流程, PPO 和 DPO 算法是什么思想,写一下 PPO 和 DPO 的 Loss 表达式介绍下RLHF的基本流程,与DPO的差异是什么?可以讲一下RLHF的基本流程吗?并写一下PPO和DPO的Loss表达式。 常见公司 阿里巴巴小米