题目 ID: q-11439

其他项目强相关,类似为什么要用one6.rec的基座 样本组织形式和one rec和hstu有什么区别。损失函数是什么。dpoloss公式,怎么构造偏好对,和基于人类真实反馈的有什么区别,dpo的流程是怎样的,有什么作用,为什么不能和参考模型分布相差太远

频次 1
推荐系统

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动