题目 ID: q-4789

3. 从文本输入开始,给我讲一下 Transformer 的流程,不考虑多头的原因,self-attention中词向量不乘QKV参数矩阵,会有什么问题?QKV 矩阵怎么产生的,为何使用多头注意力机制?参数量会变大吗

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

OPPO未知