题目 ID: q-5086

项目细节:证明Cold-Start SFT后再RL的模型比只RL效果好

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 3. 项目细节:证明Cold-Start SFT后再RL的模型比只RL效果好
  • 项目细节:你们有证明Cold-Start SFT后再5.RL的模型比只RL的模型效果好吗,为什么要做SFT,有什么好处

常见公司

美团