题目 ID: q-6937

Transformer你给我讲讲它底层原理，讲一下它为啥能替代RNN，我们知道Transformer架构已经很成熟了，但你觉得它的Self-Attention机制在多模态对齐上会不会存在瓶颈？有没有实际场景里注意力权重完全偏掉的情况

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团