题目 ID: q-4992

PPO的损失函数构成及原理

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • PPO 的损失函数构成。
  • PPO的原理,损失函数

常见公司

阿里巴巴字节跳动