题目 ID: q-6314

(针对简历项目提问)你在项目里是怎么做RLHF的?用DPO或PPO时,有没有遇到过训练不收敛或者效果不好的情况?可能是什么原因?网上常见的解决办法有哪些?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动