InterviewGuide
🌙
深色
首页
公司定向
高频优先
知识点
进度
← 返回题库
查看进度看板
题目 ID: q-6768
9️⃣PPO:强化学习,KL散度控差异,最大化奖励。
频次 1
NLP与大模型
收藏
标记完成
当前状态:未收藏、未完成
常见追问
暂无追问变体。
常见公司
蚂蚁集团