题目 ID: q-11690 为什么Transformer选用LayerNorm而不是BatchNorm? 频次 7 深度学习 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 Transformer 为什么用 LayerNorm 而不是 BatchNorm?为什么Transformer用LayerNorm而不用BatchNorm?八股:Transformer 为什么用 LayerNorm 而不是 BatchNorm? 常见公司 美团通用题库字节跳动