题目 ID: q-12396

并行训练时，如果模型参数量不大，怎么决定用 PP 还是 TP 策略？它们各自有啥好坏？

频次 1

机器学习系统

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动