题目 ID: q-6314

（针对简历项目提问）你在项目里是怎么做RLHF的？用DPO或PPO时，有没有遇到过训练不收敛或者效果不好的情况？可能是什么原因？网上常见的解决办法有哪些？

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动