题目 ID: q-6503 项目:为什么你的VLM是输出点的坐标,而不输出bbox呢,bbox按道理比点的坐标具有更多的图像信息吧? 频次 1 NLP与大模型 收藏 标记完成 当前状态:未收藏、未完成 常见追问 暂无追问变体。 常见公司 京东