当前位置：首页 » 资讯 » 新科技 » 正文

阿里云通义千问 Qwen2-VL 第二代视觉语言模型开源

IP属地北京 编辑：孙雅 IT之家 时间：2024-09-02 16:33:40

9 月 2 日消息，阿里云通义千问今日宣布开源第二代视觉语言模型 Qwen2-VL，并推出 2B、7B 两个尺寸及其量化版本模型。同时，旗舰模型 Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可直接调用。
据阿里云官方介绍，相比上代模型，Qwen2-VL 的基础性能全面提升：
读懂不同分辨率和不同长宽比的图片，在 DocVQA、RealWorldQA、MTVQA 等基准测试创下全球领先的表现；理解 20 分钟以上长视频，支持基于视频的问答、对话和内容创作等应用；具备强大的视觉智能体能力，可自主操作手机和机器人，借助复杂推理和决策的能力，Qwen2-VL 可以集成到手机、机器人等设备，根据视觉环境和文字指令进行自动操作；理解图像视频中的多语言文本，包括中文、英文，大多数欧洲语言，日语、韩语、阿拉伯语、越南语等。
Qwen2-VL 延续了 ViT 加 Qwen2 的串联结构，三个尺寸的模型都采用了 600M 规模大小的 ViT，支持图像和视频统一输入。
但为了让模型能够更清楚地感知视觉信息和理解视频，团队在架构上进行了一些升级：

一是实现了对原生动态分辨率的全面支持。不同于上代模型，Qwen2-VL 能够处理任意分辨率的图像输入，不同大小图片将被转换为动态数量的 tokens，最小只占 4 个 tokens。这一设计模拟了人类视觉感知的自然方式，确保了模型输入与图像原始信息之间的高度一致性，赋予模型处理任意尺寸图像的强大能力，使得其可以更灵活高效地进行图像处理。

二是使用了多模态旋转位置嵌入（M-ROPE）方法。传统的旋转位置嵌入只能捕捉一维序列的位置信息，M-ROPE 使得大规模语言模型能够同时捕捉和整合一维文本序列、二维视觉图像以及三维视频的位置信息，赋予了语言模型强大的多模态处理和推理能力，能让模型更好地理解和建模复杂的多模态数据。
此次 Qwen2-VL 开源的多款模型中的旗舰模型Qwen2-VL-72B 的 API 已上线阿里云百炼平台，用户可通过阿里云百炼平台直接调用 API。
同时，通义千问团队以 Apache 2.0 协议开源了 Qwen2-VL-2B 和 Qwen2-VL-7B，开源代码已集成到 Hugging Face Transformers、vLLM 和其他第三方框架中。开发者可以通过 Hugging Face 和魔搭 ModelScope 下载使用模型，也可通过通义官网、通义 App 的主对话页面使用模型，附地址如下：
阿里云百炼平台：https://help.aliyun.com/zh/model-studio/developer-reference/qwen-vl-api GitHub：https://github.com/QwenLM/Qwen2-VL HuggingFace：https://huggingface.co/collections/Qwen/qwen2-vl-66cee7455501d7126940800d 魔搭 ModelScope：https://modelscope.cn/organization/qwen?tab=model 模型体验：https://huggingface.co/spaces/Qwen/Qwen2-VL

免责声明：本网信息来自于互联网，目的在于传递更多信息，并不代表本网赞同其观点。其内容真实性、完整性不作任何保证或承诺。如若本网有任何内容侵犯您的权益，请及时联系我们，本站将会在24小时内处理完毕。

同类资讯

B&O 发布 Beoplay Eleven 真无线降噪耳机，采用可更换电池

摩托罗拉海外推出Moto AI首次公测，双击手机背部即可随时访问

集大原高铁全线进入运行试验阶段，预计今年年底具备开通条件

搭载高通骁龙 X 系列芯片的笔记本遇冷，三季度仅占 0.8%市场份额

顺丰控股H股挂牌上市，融资额超56亿港元成港股年内第二大IPO

东晶电子股权生变：宁波宁聚助蓝海投控成第一大股东

美国华盛顿装上 AI 防空摄像头，22 年老设备下岗

谁席卷了这个冬天的总裁圈衣橱？

realme 真我 V60 Pro 手机现身电信产品库，售价 1599 元起

系统集成商开启RTX 5090显卡AI工作站预订，8卡配置定价5万欧元

华为与大连化学物理研究所签约合作，共建智能化工大模型

Redmi K80 Pro性能拉满！王腾直呼“狂暴辣完爆13香”

REDMI K80 Pro升级全焦段旗舰三摄：小米15同款浮动长焦

REDMI推出后悔宝：友商骁龙8至尊版机型最高加1000回收

王腾：REDMI K80 Pro香爆了大哥小米15卖得挺贵的

实测华为Mate 70 Pro+，网速竟比Mate 60 Pro快一倍

银嘉金服旗下支付平台付临门及实控人被再次限消，涉案被执行金额超9千万

REDMI K80 Pro：骁龙8至尊版加持大满贯级性能表现

赵明曝光荣耀Magic 7 RSR保时捷版：带来全新大王算法

中国电信沙特公司在利雅得正式成立

微软申请分布式 VR 专利：用户可独立探索他人共享的虚拟世界

星之卡比初代容量只有64KB？游戏容量与内容质量哪个更重要

《英雄联盟：双城之战》剧集遭删减被删内容引发猜测

《银河战士 Prime 2：复刻版》将于2025年发售！高清画面实锤！

TGA 2024重磅升级！全新“玩家之声”奖项即将开启

这款游戏火了！游戏中切尔诺贝利禁区有人非法入内

动画太长？《双城之战》第二季内容被删减

全站最新

B&O 发布 Beoplay Eleven 真无线降噪耳机，采用可更换电池

摩托罗拉海外推出Moto AI首次公测，双击手机背部即可随时访问

集大原高铁全线进入运行试验阶段，预计今年年底具备开通条件

搭载高通骁龙 X 系列芯片的笔记本遇冷，三季度仅占 0.8%市场份额

顺丰控股H股挂牌上市，融资额超56亿港元成港股年内第二大IPO

东晶电子股权生变：宁波宁聚助蓝海投控成第一大股东

美国华盛顿装上 AI 防空摄像头，22 年老设备下岗

谁席卷了这个冬天的总裁圈衣橱？

热门推荐

B&O 发布 Beoplay Eleven 真无线降噪耳机，采用可更换电池

摩托罗拉海外推出Moto AI首次公测，双击手机背部即可随时访问

集大原高铁全线进入运行试验阶段，预计今年年底具备开通条件

搭载高通骁龙 X 系列芯片的笔记本遇冷，三季度仅占 0.8%市场份额

顺丰控股H股挂牌上市，融资额超56亿港元成港股年内第二大IPO

东晶电子股权生变：宁波宁聚助蓝海投控成第一大股东

美国华盛顿装上 AI 防空摄像头，22 年老设备下岗

谁席卷了这个冬天的总裁圈衣橱？

realme 真我 V60 Pro 手机现身电信产品库，售价 1599 元起

系统集成商开启RTX 5090显卡AI工作站预订，8卡配置定价5万欧元

华为与大连化学物理研究所签约合作，共建智能化工大模型

Redmi K80 Pro性能拉满！王腾直呼“狂暴辣完爆13香”

REDMI K80 Pro升级全焦段旗舰三摄：小米15同款浮动长焦

REDMI推出后悔宝：友商骁龙8至尊版机型最高加1000回收

王腾：REDMI K80 Pro香爆了大哥小米15卖得挺贵的