题目 ID: q-4897

DPO对齐训练的曲线是怎么样的,正例的概率会提升嘛?

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • DPO 对齐训练的曲线是怎么样的,正例的概率会提升嘛

常见公司

百度未知