题目 ID: q-11822

几乎所有的2025年面经都涉及了Pre-Norm(归一化层置于子层输入之前)与Post-Norm的对比。候选人需指出Pre-Norm使得梯度在反向传播时有一条“高速公路”,避免了梯度消失或爆炸,这对于训练百亿参数以上的深层网络至关重要。

频次 1
深度学习

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

阿里巴巴