题目 ID: q-5089 大模型容易 reward hacking,如何解决? 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 大模型容易 reward hacking,如何解决?大模型容易 reward hacking,如何解决?你说训一个小模型,那小模型数据如何来?还有什么办法吗? 常见公司 美团