题目 ID: q-4386 问RLHF的流程,问到RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 问RM的训练的时候突然问RLHF的loss是什么,顺势就以为问的是RM的loss,答交叉熵,说不对???不是吗?后面想了一下他可能是想问PPO的loss 常见公司 拼多多未知