题目 ID: q-6244

moe层的负载均衡具体是怎么做的?偏置项b是怎么训练的?你怎么保证有一个机制让偏置项得到变换?照理来说,偏置项b应该放到损失函数中,这应该怎么设计?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动