题目 ID: q-12317 经验回放:为 GRPO 流水线引入在线回放缓冲区或周期性Rollout Replay,定期重放历史样本以对抗遗忘并提高样本效率 频次 1 机器学习系统 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 未知