题目 ID: q-6187

transformer 的 decoder 和 llama 有啥区别，他们的位置编码有啥区别？三角函数位置编码和 ROPE 公式很像啊，他们是怎么实现不同的功能？（一个加 embedding 一个加 KQV，但是公式很像但是推理完全不一样吧，不太会答）

频次 1

NLP与大模型

当前状态：未收藏、未完成

常见追问

暂无追问变体。

字节跳动