题目 ID: q-4361 DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工? 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工的? 常见公司 蚂蚁集团通用题库百度