题目 ID: q-4353

Deepseek r1中的训练方式有什么特别之处?怎么做的think?RLHF的流程是什么?

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

  • Deepseek r1中的训练方式有什么特别之处?怎么做的think?RLHF的流程是什么?

常见公司

小红书阿里巴巴百度