题目 ID: q-4552 **reward bench** 上的reward model分哪几类?reward model如何训练的,训练目标是什么? 频次 3 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 reward bench上的reward model分哪几类?reward model如何训练的,训练目标是什么?reward bench 上的reward model分哪几类?reward model如何训练的,训练目标是什么? 常见公司 滴滴字节跳动