题目 ID: q-4812

DeepSeek 有了解吗, DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团