题目 ID: q-5085 项目细节中的SFT数据合成、SFT/RL训练细节和奖励函数设计 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 1. 项目细节:SFT数据合成、SFT/RL训练细节、奖励函数设计项目细节:SFT数据的合成细节、SFT/RL的训练细节,奖励函数 常见公司 美团