题目 ID: q-4712

手撕transformer模型代码,介绍模型架构,介绍交叉熵损失函数,介绍L1,L2正则化有什么区别,写下完整损失函数公式,写下transformer所有矩阵转换的数学公式,如何理解需要除根号d

频次 2
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

百度联想