题目 ID: q-5089

大模型容易 reward hacking,如何解决?

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 大模型容易 reward hacking,如何解决?
  • 大模型容易 reward hacking,如何解决?你说训一个小模型,那小模型数据如何来?还有什么办法吗?

常见公司

美团