题目 ID: q-6750

13. flash attention 有了解吗?(大概讲了一下 QKV 中间状态不保存, 后向重新计算, 还有 softmax 分块计算)

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

蚂蚁集团