题目 ID: q-5517

GRPO 属于以在线生成样本、快速更新为主的策略优化范式,训练时若长期‘远离’预训练分布,模型不会再接触已移除的简单样本,从而缺乏维持这些能力的训练信号

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

未知