题目 ID: q-5149

除了人类反馈,我们还可以利用AI自身的反馈来做对齐,即RLAIF。请谈谈你对RLAIF的理解,它的潜力和风险分别是什么?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

通用题库