题目 ID: q-6187

transformer 的 decoder 和 llama 有啥区别,他们的位置编码有啥区别? 三角函数位置编码和 ROPE 公式很像啊,他们是怎么实现不同的功能?(一个加 embedding 一个加 KQV,但是公式很像但是推理完全不一样吧,不太会答)

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

字节跳动