题目 ID: q-4812 DeepSeek 有了解吗, DeepSeek 用到的 MLA 注意力是怎么做的?它可以直接用 RoPE 吗?为什么不能,它做了哪些优化 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 美团