阿里通义千问开源视觉推理模型QVQ-72B-Preview
IT之家 12 月 25 日消息,阿里通义千问 Qwen 团队今天(12 月 25 日)发布博文,宣布基于 Qwen2-VL-72B 构建,推出 QVQ-72B-Preview 开源视觉推理模型,能够像物理学大师一样,面对复杂的物理问题,沉着冷静地通过逻辑推理找到解决方案。
阿里通义千问团队在 4 个数据集上评估 QVQ-72B-Preview,IT之家附上相关介绍如下:
MMMU:一个大学级别的多学科多模态评测集,旨在考察模型视觉相关的综合理解和推理能力。
MathVista:一个数学相关的视觉推理测试集,评估拼图测试图形的逻辑推理、函数图的代数推理和学术论文图形的科学推理等能力。
MathVision:一个高质量多模态数学推理测试集,来自于真实的数学竞赛,相比于 MathVista 具有更多的问题多样性和学科广度。
OlympiadBench:一个奥林匹克竞赛级别的双语多模态科学基准测试集,包含来自奥林匹克数学和物理竞赛的 8,476 个问题,包括中国高考。每个问题都附有专家级别的注释,详细说明了逐步推理的过程。
测试结果显示,QVQ-72B-Preview 在 MMMU 基准测试中取得了 70.3 的分数,显著超越了 Qwen2-VL-72B-Instruct。此外,在剩下的三个专注于数学和科学问题的基准测试中,该模型表现出色,有效缩小了与领先的最先进的 o1 模型之间的差距。
阿里通义千问 Qwen 团队也表示 QVQ-72B-Preview 是实验性研究模型,专注于增强视觉推理能力。尽管它的表现超出了预期,但仍有几个限制需要注意:
语言混合与切换:模型可能会意外地混合语言或在语言之间切换,从而影响响应的清晰度。
递归推理:模型可能会陷入循环逻辑模式,产生冗长的响应而无法得出结论。
安全和伦理考虑:模型需要增强安全措施,以确保可靠和安全的性能,用户在部署时应保持谨慎。
性能和基准限制:尽管模型在视觉推理方面有所改善,但它无法完全替代 Qwen2-VL-72B 的能力。此外,在多步骤视觉推理过程中,模型可能会逐渐失去对图像内容的关注,导致幻觉。
参考
上一篇:怎么让电热水器怎么调?如何正确调节电热水器温度以节能?
下一篇:没有了
- 维修知识
- 安装知识
- 清洗保养
- 行业新闻
- 常见问题
- 世界上员工最多的几家公司,收藏起来看看吧12-25
- 康宝燃气灶售后电话24小时人工电话12-25
- 东芝烘干机售后电话24小时人工电话12-25
- SHARP洗碗机24小时人工服务热线12-25
- 晨光保险柜24小时人工服务热线12-25
- 容声锅炉售后维修点查询12-25
- 华博士锅炉24小时服务热线12-25
- CASC太阳能售后维修12-25
- 东洋电机洗碗机全国统一服务热线12-25
- 世迈格洗碗机售后服务热线12-25
- 小米智能锁总部400售后维修12-25
- 富甲保险柜售后维修电话12-25
- 格林德集成灶售后电话24小时人工电话12-25
- 好难过这不是我要的结果什么歌12-25
- 康派热水器24小时人工服务热线12-25
- 嘉哥纳洗碗机售后电话12-25
- 一洲锅炉售后电话24小时人工电话12-25
- 瑞能锅炉售后电话12-25
- 曼瑞德锅炉24小时服务热线12-25
- 15度穿什么12-25
- 小天鹅半自动洗衣机12-25
- 普赛罗智能锁总部400售后维修12-25
- 威特尼壁挂炉24小时人工服务热线12-25
- 三菱电子空气能24小时人工服务热线12-25
- 帅因特太阳能24小时服务热线12-25
- 瑞尼科兹燃气灶售后维修12-25
- 条码打印机碳带12-25
- 奇声冰箱售后服务电话24小时12-25
- 恒芝月牙制冰机售后服务热线12-25
- 欧意防盗门售后电话24小时人工电话12-25
- 格斯图保险柜售后服务电话24小时12-25
- 暖心贝贝壁挂炉12-25
- Ferroli地暖售后24小时人工客服12-25
- 摩坚智能锁24小时人工服务热线12-25