题目 ID: q-6314 (针对简历项目提问)你在项目里是怎么做RLHF的?用DPO或PPO时,有没有遇到过训练不收敛或者效果不好的情况?可能是什么原因?网上常见的解决办法有哪些? 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 字节跳动