题目 ID: q-4298 如果在训练 DPO 的过程中,正例和负例的 loss 都在下降,该如何解决? 频次 5 NLP与大模型 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 8.如果在训练 DPO 的过程中,正例和负例的loss 都在下降,该如何解决? 常见公司 小红书美团百度