题目 ID: q-4992 PPO的损失函数构成及原理 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 PPO 的损失函数构成。PPO的原理,损失函数 常见公司 阿里巴巴字节跳动