题目 ID: q-4767

VERL框架:字节开源,适配大模型RL训练,解耦控制流与计算流,支持分布式训练,兼容多种内存优化方案,适配PPO/DPO算法与美团业务微调。

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团字节跳动