题目 ID: q-12250

之前实习用 DeepSpeed 微调过 Qwen2-72B,于是面试官问了 ZeRO-1,ZeRO-2,ZeRO-3 三个模式的区别

频次 2
机器学习系统

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯