题目 ID: q-4518

做注意力计算的时候softmax之前为什么要除根号d_k?

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 计算attention的softmax之前为什么要除根号d_k

常见公司

美团字节跳动