识别高分低能，综合性视觉语言理解新基准，五项挑战评估多模态模型的推理能力

2025-02-27

加自选

JourneyBench团队提出了一种新的综合性视觉语言理解基准，通过五项挑战性任务评估多模态模型的推理能力，包括多模态链式数学推理、多图像视觉问答、细粒度跨模态检索、包含幻觉触发的开放式视觉问答和非常见图像描述。该基准旨在解决现有基准数据同质化、场景复杂性不足的问题，利用基于diffusion模型生成的图像提高测试难度。研究发现，现有模型在处理非常见场景和细粒度跨模态推理时表现不佳，尤其在幻觉问题上存在显著不足。

今日额度已用完

开通会员后解锁无限制查看权益

重要提示和声明

本页面内容由AI提炼生成，无法确保完全真实准确，不代表123彩票app稳定版下载官方立场，不构成投资建议。阅读详细说明，请点击此处