题目 ID: q-4361

DPO相比 SFT，有哪些优劣？它在 Agent 任务上效果提升明显吗？你怎么构造偏好对？构造逻辑是自动的还是人工？

频次 4

NLP与大模型

当前状态：未收藏、未完成

常见追问

蚂蚁集团通用题库百度