题目 ID: q-4386

问RLHF的流程,问到RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 问RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss

常见公司

拼多多未知