题目 ID: q-11822 几乎所有的2025年面经都涉及了Pre-Norm(归一化层置于子层输入之前)与Post-Norm的对比。候选人需指出Pre-Norm使得梯度在反向传播时有一条“高速公路”,避免了梯度消失或爆炸,这对于训练百亿参数以上的深层网络至关重要。 频次 1 深度学习 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 阿里巴巴