题目 ID: q-6482

为什么要用多头注意力?多头的思想和QKV三个不同投影矩阵的思想的异同?QKV矩阵除了增加表达能力以外还有什么作用?(不太懂问的是啥,面试官后面提示说是还有降维的作用,不是很懂)类似多头的集成的思想在什么算法里面比较常见?(我答了机器学习的集成学习类,比如前面的随机森林,还说了MOE这种,面试官比较想听到的是多尺度CNN)

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

京东