题目 ID: q-4883

请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列?

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

通用题库