题目 ID: q-118

感兴趣强化学习，问一个最新论文如何使用强化学习的。我用到了SAC，接着问大模型推理的top k策略选择答案和SAC选择动作的策略的区别（这脑回路）

频次 1

AI系统设计 AI 系统设计

当前状态：未收藏、未完成

常见追问

暂无追问变体。

荣耀