题目 ID: q-6938

我们做了一些multi-query attention优化,但发现decoder延迟还是高,你觉得是哪里的瓶颈vLLM 本身的KV cache 是不是反而是负担

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团