题目 ID: q-12065

MOE 的 expert parallel 如何做的? 你用了 swift 参数怎么设置的,有 2 个 node 你如何分配你的训练参数?

频次 1
深度学习

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团