题目 ID: q-5086 项目细节:证明Cold-Start SFT后再RL的模型比只RL效果好 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 3. 项目细节:证明Cold-Start SFT后再RL的模型比只RL效果好项目细节:你们有证明Cold-Start SFT后再5.RL的模型比只RL的模型效果好吗,为什么要做SFT,有什么好处 常见公司 美团