题目 ID: q-35

如何解决On-Policy的训练稳定性与Off-Policy的数据复用效率之间的矛盾？

频次 1

AI系统设计 AI 系统设计

当前状态：未收藏、未完成

常见追问

暂无追问变体。

未知