题目 ID: q-6482 为什么要用多头注意力?多头的思想和QKV三个不同投影矩阵的思想的异同?QKV矩阵除了增加表达能力以外还有什么作用?(不太懂问的是啥,面试官后面提示说是还有降维的作用,不是很懂)类似多头的集成的思想在什么算法里面比较常见?(我答了机器学习的集成学习类,比如前面的随机森林,还说了MOE这种,面试官比较想听到的是多尺度CNN) 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 京东