题目 ID: q-12258

在有限的GPU资源下训练大规模模型的完整方案(包括ZeRO配置、Offload策略和并行策略)

频次 2
机器学习系统

当前状态:未收藏、未完成

常见追问

  • 假设自己拥有有限的GPU资源(如8张A100),如何训练一个70B模型?制定详细的ZeRO配置、Offload策略和并行策略。
  • 8 张 A100 GPU 训练 70B 模型的完整方案(ZeRO 配置、Offload 策略、并行策略)

常见公司

阿里巴巴阿里(阿里云 / 达摩院)