题目 ID: q-4973 Reward Model的本质是学习同一状态下的不同动作的偏好 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 Reward Model的本质上就是学习同一个state(即输入的prompt)下两个不同的action(即两个response)的偏好LLM下的Reward Model的本质上就是学习同一个state(即输入的prompt)下两个不同的action(即两个response)的偏好 常见公司 未知