题目 ID: q-4401

6.在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • 在 RLHF 中,目前主流的强化学习算法有哪几个,写一下损失函数的表达式
  • 当前主流的强化学习算法有哪些?请写出对应损失函数的数学表达式。

常见公司

腾讯