题目 ID: q-4378

知不知道序列中每一个token的embedding在经过很多层self attention之后会变得相似的问题以及对应的原因?

频次 4
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯京东字节跳动联想