题目 ID: q-11

为什么PPO要用value baseline和GAE?它们如何让训练更稳定?

频次 4
AI系统设计 AI 系统设计

当前状态:未收藏、未完成

常见追问

  • 项目:为什么PPO要用value baseline和GAE?它们如何让训练更稳定?
  • 为什么PPO要用value baseline和GAE?它们如何让训练更稳定?
  • 项目:为什么PPO要用value baseline和GAE?它们如何让训练更稳定?

常见公司

通用题库小红书