题目 ID: q-6244 moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计? 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 字节跳动