题目 ID: q-5011

在参数高效微调中,为什么优先微调 Attention 层的 Q/K/V/O,而不是 FFN 层?

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 在参数高效微调中,为什么优先微调 Attention 层的 Q/K/V/O,而不是 FFN 层?
  • 2.在参数高效微调中,为什么优先微调 Attention 层的 Q/K/V/O,而不是 FFN 层?

常见公司

百度字节跳动