题目 ID: q-6257

如果是一个开放任务,比如对话任务。没有固定答案,该怎么选RL训练策略呢

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动