题目 ID: q-4789

3. 从文本输入开始，给我讲一下 Transformer 的流程，不考虑多头的原因，self-attention中词向量不乘QKV参数矩阵，会有什么问题？QKV 矩阵怎么产生的，为何使用多头注意力机制？参数量会变大吗

频次 2

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

OPPO未知