题目 ID: q-4166

🔥🔥 Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?

频次 24
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • 为什么Attention公式中要除以√dk?这个操作有什么作用?
  • 计算attention时候为什么要除以根号dk,还有哪些scale处理?
  • Attention如何计算?为什么除以根号下Dk?mask attention是如何实现的?

常见公司

腾讯滴滴字节跳动网易阿里巴巴