题目 ID: q-6257

如果是一个开放任务，比如对话任务。没有固定答案，该怎么选RL训练策略呢

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动