题目 ID: q-4302

PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?

频次 5
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • PPO的clip机制?在线强化学习和离线强化学习有什么区别?RLHF是哪一种?

常见公司

通用题库字节跳动