题目 ID: q-11687 为什么Transformer使用Layer Normalization而不是Batch Normalization? 频次 9 深度学习 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 Transformer用的是什么normalize方式?为什么用LN不用BN?7.为什么要用LN,不用BN为什么LN不BN 常见公司 OPPO京东字节跳动阿里巴巴美团