题目 ID: q-4764

FlashAttention:优化注意力计算瓶颈,分块计算+梯度重计算,降显存、提速度,保持精度不变,美团大模型长序列处理广泛应用。

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

美团字节跳动