题目 ID: q-4552

**reward bench** 上的reward model分哪几类?reward model如何训练的,训练目标是什么?

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • reward bench上的reward model分哪几类?reward model如何训练的,训练目标是什么?
  • reward bench 上的reward model分哪几类?reward model如何训练的,训练目标是什么?

常见公司

滴滴字节跳动