题目 ID: q-4431

大模型的MoE结构相比于Dense结构,训练难点主要是什么?DeepSeekMoE效果好的原因有哪些?

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
  • 6.大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方, DeepSeekMoE 为什么效果好,有什么值得我们借鉴创新点
  • 大模型的 MoE 结构相比于 Dense 结构训练的难点在什么地方,DeepSeekMoE为什么效果好,有什么值得我们借鉴创新点(MoE面临负载不均衡、训练不稳定问题;DeepSeekMoE通过细粒度专家和共享专家设计提升稳定性和效果)

常见公司

阿里巴巴