题目 ID: q-4712 手撕transformer模型代码,介绍模型架构,介绍交叉熵损失函数,介绍L1,L2正则化有什么区别,写下完整损失函数公式,写下transformer所有矩阵转换的数学公式,如何理解需要除根号d 频次 2 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 百度联想