题目 ID: q-4192 🔥 human feedback是怎么被agent消化吸收的?有没有用rl进行策略更新? 频次 11 NLP与大模型 高频 收藏 标记完成 当前状态:未收藏、未完成 常见追问 human feedback 是怎么被 agent 消化吸收的?human feedback是怎么被agent消化吸收的?有没有用rl进行策略更新?human feedback是怎么被agent消化吸收的? 常见公司 阿里巴巴通用题库字节跳动