题目 ID: q-29

如果在PPO训练过程中，KL散度惩罚项的系数 β 设置得过大或过小，分别会导致什么样的问题？你将如何通过实验和观察来调整这个超参数？

频次 1

AI系统设计 AI 系统设计

当前状态：未收藏、未完成

常见追问

暂无追问变体。

通用题库