题目 ID: q-4973

Reward Model的本质是学习同一状态下的不同动作的偏好

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • Reward Model的本质上就是学习同一个state(即输入的prompt)下两个不同的action(即两个response)的偏好
  • LLM下的Reward Model的本质上就是学习同一个state(即输入的prompt)下两个不同的action(即两个response)的偏好

常见公司

未知