题目 ID: q-4883 请详细解释一下 Transformer 模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列? 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 请详细解释一下Transformer模型中的自注意力机制是如何工作的?它为什么比 RNN 更适合处理长序列? 常见公司 通用题库