题目 ID: q-3

强化学习奖励模型怎么训练的

频次 6
AI系统设计 高频 AI 系统设计

当前状态:未收藏、未完成

常见追问

  • 3.讲一讲奖励模型的训练,奖励模型的奖励是怎么来的
  • 项目中的奖励模型是如何训练的
  • 奖励模型怎么训

常见公司

美团百度网易