题目 ID: q-4353

Deepseek r1中的训练方式有什么特别之处？怎么做的think？RLHF的流程是什么？

频次 4

NLP与大模型

当前状态：未收藏、未完成

常见追问

小红书阿里巴巴百度