题目 ID: q-6750 13. flash attention 有了解吗?(大概讲了一下 QKV 中间状态不保存, 后向重新计算, 还有 softmax 分块计算) 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 蚂蚁集团