题目 ID: q-5911

介绍一下大模型的预训练后训练以及推理是怎么做的,并且详细问了 RLHF 的做法,包括PPO 算法的原理,以及 DPO 和PPO 的区别

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

百度