题目 ID: q-11 为什么PPO要用value baseline和GAE?它们如何让训练更稳定? 频次 4 AI系统设计 AI 系统设计 收藏 标记完成 当前状态:未收藏、未完成 常见追问 项目:为什么PPO要用value baseline和GAE?它们如何让训练更稳定?为什么PPO要用value baseline和GAE?它们如何让训练更稳定?项目:为什么PPO要用value baseline和GAE?它们如何让训练更稳定? 常见公司 通用题库小红书