题目 ID: q-4178

🔥 DPO的原理,损失函数如何计算?

频次 15
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • DPO 的 loss 你怎么理解的?你们业务上用了 DPO 为什么这样设计?
  • DPO的loss是怎么计算的?
  • 6.dpo训练的损失函数和训练目标,dpo如何改进

常见公司

腾讯哔哩哔哩滴滴字节跳动通用题库