题目 ID: q-4932

Transformer为什么使用多头Attention?

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 能否解释Transformer使用多头注意力机制的动机?
  • Transformer为什么使用多头注意力机制?

常见公司

通用题库腾讯