题目 ID: q-4518 做注意力计算的时候softmax之前为什么要除根号d_k? 频次 3 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 计算attention的softmax之前为什么要除根号d_k 常见公司 美团字节跳动