题目 ID: q-4942 RLHF与DPO的本质区别?DPO损失函数推导. 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 RLHF与DPO的本质区别?DPO损失函数推导。3.RLHF与DPO的本质区别?DPO损失函数推导。 常见公司 字节跳动