题目 ID: q-7205

但是现在都是clip倒数第二层,clip只在倒数第一层做了文图对齐,你会怎么进行解纠缠/对齐(取很多相似的图像做few-shot的IPA平均,这样子当个数够多时候他们的平均就只代表风格,淡化内容;做风格 风格话图像 内容图像三元组显示训练) 现在想想对齐也可以拿QK得到attention map Q是text K是图像

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

腾讯