题目 ID: q-11690

为什么Transformer选用LayerNorm而不是BatchNorm?

频次 7
深度学习 高频

当前状态:未收藏、未完成

常见追问

  • Transformer 为什么用 LayerNorm 而不是 BatchNorm?
  • 为什么Transformer用LayerNorm而不用BatchNorm?
  • 八股:Transformer 为什么用 LayerNorm 而不是 BatchNorm?

常见公司

美团通用题库字节跳动