题目 ID: q-4298

如果在训练 DPO 的过程中，正例和负例的 loss 都在下降，该如何解决？

频次 5

NLP与大模型高频

当前状态：未收藏、未完成

常见追问

小红书美团百度