题目 ID: q-4480

DPO的原始数据构建,如果我有一批数据格式遵循不好但是推理能力OK,另一批数据推理不行格式遵循OK,怎么构建偏好对做RLHF/DPO

频次 3
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

百度未知