题目 ID: q-4566 dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决 频次 3 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 DPO中训练的时候为什么会出现chosen概率和reject概率都下降的情况?怎样解决?4. dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决 常见公司 未知