题目 ID: q-5132

多模态大模型(如 VLM)的核心挑战是什么?即如何实现不同模态信息(如视觉和语言)的有效对齐和融合?

频次 1
NLP与大模型

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

通用题库