题目 ID: q-4566

dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • DPO中训练的时候为什么会出现chosen概率和reject概率都下降的情况?怎样解决?
  • 4. dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决
  • dpo 出现 chosen 和 rejected的概率都下降是为什么,怎么解决

常见公司

未知