题目 ID: q-6937

Transformer你给我讲讲它底层原理,讲一下它为啥能替代RNN,我们知道Transformer架构已经很成熟了,但你觉得它的Self-Attention机制在多模态对齐上会不会存在瓶颈?有没有实际场景里注意力权重完全偏掉的情况

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团