题目 ID: q-7294

对于 Megatron-LM,多头注意力计算是使用的 TP 还是 PP,可以举个例子,比如说我现在注意力计算有16 个头,现在是有 4 个 gpu 做 TP,那么是如何进行实现的,是切分行还是切分列

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯