题目 ID: q-4480

DPO的原始数据构建，如果我有一批数据格式遵循不好但是推理能力OK，另一批数据推理不行格式遵循OK，怎么构建偏好对做RLHF/DPO

频次 3

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

百度未知