← 返回题库查看进度看板

题目 ID: q-4973

Reward Model的本质是学习同一状态下的不同动作的偏好

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

Reward Model的本质上就是学习同一个state（即输入的prompt）下两个不同的action（即两个response）的偏好
LLM下的Reward Model的本质上就是学习同一个state（即输入的prompt）下两个不同的action（即两个response）的偏好

常见公司

未知