题目 ID: q-7524

(4)为什么softmax前要除以根号d?为什么是根号d不是别的数?在这个问题上我们的基础假设是每个值服从标准正态分布,还是只要均值0方差1即可?为什么?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

小红书