题目 ID: q-12317

经验回放:为 GRPO 流水线引入在线回放缓冲区或周期性Rollout Replay,定期重放历史样本以对抗遗忘并提高样本效率

频次 1
机器学习系统

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

未知