题目 ID: q-4902

DPO 除了长度问题还有其他的问题嘛,与问题2对应, reward hacking ?都没有奖励模型了

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • DPO除了长度问题还有其他的问题嘛,与问题2对应,reward hacking?都没有奖励模型了

常见公司

百度未知