题目 ID: q-12258 在有限的GPU资源下训练大规模模型的完整方案(包括ZeRO配置、Offload策略和并行策略) 频次 2 机器学习系统 收藏 标记完成 当前状态:未收藏、未完成 常见追问 假设自己拥有有限的GPU资源(如8张A100),如何训练一个70B模型?制定详细的ZeRO配置、Offload策略和并行策略。8 张 A100 GPU 训练 70B 模型的完整方案(ZeRO 配置、Offload 策略、并行策略) 常见公司 阿里巴巴阿里(阿里云 / 达摩院)