题目 ID: q-118

感兴趣强化学习,问一个最新论文如何使用强化学习的。我用到了SAC,接着问大模型推理的top k策略选择答案和SAC选择动作的策略的区别(这脑回路)

频次 1
AI系统设计 AI 系统设计

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

荣耀