题目 ID: q-4190

🔥 reward function 如何设计的为什么这么设计?

频次 12
NLP与大模型 高频

当前状态:未收藏、未完成

常见追问

  • 奖励函数是怎么设计?
  • Reward Function的设计
  • 奖励函数是如何设计的?是否考虑了事实正确性、安全性等维度?

常见公司

腾讯京东荣耀蚂蚁集团网易