题目 ID: q-5517 GRPO 属于以在线生成样本、快速更新为主的策略优化范式,训练时若长期‘远离’预训练分布,模型不会再接触已移除的简单样本,从而缺乏维持这些能力的训练信号 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 未知