题目 ID: q-4298

如果在训练 DPO 的过程中,正例和负例的 loss 都在下降,该如何解决?

频次 5
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • 8.如果在训练 DPO 的过程中,正例和负例的loss 都在下降,该如何解决?

常见公司

小红书美团百度