题目 ID: q-3 强化学习奖励模型怎么训练的 频次 6 AI系统设计 高频 AI 系统设计 收藏 标记完成 当前状态:未收藏、未完成 常见追问 3.讲一讲奖励模型的训练,奖励模型的奖励是怎么来的项目中的奖励模型是如何训练的奖励模型怎么训 常见公司 美团百度网易