题目 ID: q-4401 6.在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。 常见公司 腾讯