题目 ID: q-7294

对于 Megatron-LM，多头注意力计算是使用的 TP 还是 PP，可以举个例子，比如说我现在注意力计算有16 个头，现在是有 4 个 gpu 做 TP，那么是如何进行实现的，是切分行还是切分列

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

腾讯