题目 ID: q-12658

请解释Grounding在 VLM 领域中的含义。我们如何评估一个 VLM 是否能将文本描述准确地对应到图片中的特定区域?

频次 1
计算机视觉

当前状态:未收藏、未完成

常见追问

暂无追问变体。

常见公司

通用题库