题目 ID: q-118 感兴趣强化学习,问一个最新论文如何使用强化学习的。我用到了SAC,接着问大模型推理的top k策略选择答案和SAC选择动作的策略的区别(这脑回路) 频次 1 AI系统设计 AI 系统设计 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 荣耀