题目 ID: q-11687

为什么Transformer使用Layer Normalization而不是Batch Normalization?

频次 9
深度学习 高频

当前状态:未收藏、未完成

常见追问

  • Transformer用的是什么normalize方式?为什么用LN不用BN?
  • 7.为什么要用LN,不用BN
  • 为什么LN不BN

常见公司

OPPO京东字节跳动阿里巴巴美团