题目 ID: q-7235

Transformer 的复杂度Bert 用的什么位置编码,为什么要用正弦余弦来做位置编码?还知道其他哪些位置编码?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯