题目 ID: q-4378 知不知道序列中每一个token的embedding在经过很多层self attention之后会变得相似的问题以及对应的原因? 频次 4 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 腾讯京东字节跳动联想