题目 ID: q-5517

GRPO 属于以在线生成样本、快速更新为主的策略优化范式，训练时若长期‘远离’预训练分布，模型不会再接触已移除的简单样本，从而缺乏维持这些能力的训练信号

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

未知