题目 ID: q-4317

如何处理reward hacking?

频次 5
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • 是否有reward hacking问题,怎么避免
  • RLHF 中的 Reward Hacking 如何解决?
  • 如何处理reward hacking?

常见公司

通用题库字节跳动