题目 ID: q-35

如何解决On-Policy的训练稳定性与Off-Policy的数据复用效率之间的矛盾?

频次 1
AI系统设计 AI 系统设计

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

未知