题目 ID: q-4767 VERL框架:字节开源,适配大模型RL训练,解耦控制流与计算流,支持分布式训练,兼容多种内存优化方案,适配PPO/DPO算法与美团业务微调。 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 美团字节跳动