题目 ID: q-5364

PPO/DPO 损失函数详解,RAFT/ReST 等前沿对齐算法了解

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯