题目 ID: q-4480 DPO的原始数据构建,如果我有一批数据格式遵循不好但是推理能力OK,另一批数据推理不行格式遵循OK,怎么构建偏好对做RLHF/DPO 频次 3 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 百度未知