题目 ID: q-4361

DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工?

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • DPO相比 SFT,有哪些优劣?它在 Agent 任务上效果提升明显吗?你怎么构造偏好对?构造逻辑是自动的还是人工的?

常见公司

蚂蚁集团通用题库百度