题目 ID: q-4897

DPO对齐训练的曲线是怎么样的，正例的概率会提升嘛？

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

百度未知