题目 ID: q-4897 DPO对齐训练的曲线是怎么样的,正例的概率会提升嘛? 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛 常见公司 百度未知