题目 ID: q-5142

奖励模型的设计至关重要。它的模型架构通常如何选择？它与我们最终要优化的LLM是什么关系？在训练奖励模型时，常用的损失函数是什么？请解释其背后的数学原理（例如，可以结合Bradley-Terry模型来解释）。

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

通用题库