题目 ID: q-4307

PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?

频次 5
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • PPO的原理?从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?
  • 从维护的四个model讲,再详细讲一下训练流程和损失函数各个参数含义?

常见公司

蚂蚁集团通用题库