题目 ID: q-5937

从普通注意力换成多头注意力会导致参数暴涨吗?如果有所增加的话,请分析主要是哪个结构导致的

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

百度