题目 ID: q-6938

我们做了一些multi-query attention优化，但发现decoder延迟还是高，你觉得是哪里的瓶颈vLLM 本身的KV cache 是不是反而是负担

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

美团