阿里云开源通义千问多模态视觉模型Qwen-VL,号称“远超同等规模通用模
,阿里云今日推出了大规模视觉语言模型 Qwen-VL,目前已经在 ModeScope 开源,IT之家早前曾报道,阿里云此前已经开源通义千问 70 亿参数通用模型 Qwen-7B 和对话模型 Qwen-7B-Chat。
据悉,Qwen-VL 是一款支持中英文等多种语言的视觉语言模型,相较于此前的 VL 模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。
Qwen-VL 以 Qwen-7B 为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的 LVLM 模型通常仅支持 224 分辨率。
官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。
此外,在 Qwen-VL 的基础上,通义千问团队使用对齐机制,打造了基于 LLM 的视觉 AI 助手 Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。
通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基于 GPT-4 打分机制的测试集 “试金石”,对 Qwen-VL-Chat 及其他模型进行对比测试,Qwen-VL-Chat 在中英文的对齐评测中均取得了开源 LVLM 最好结果。
广告声明:文内含有的对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
您可能也感兴趣:
- 中核集团:我国掌握可控核聚变高约束先进控制技术
- 游戏《火影忍者博人传终极风暴:羁绊》公布主机平台画质信息:PS54K60
- 索尼互动娱乐将收购Audeze以加强PlayStation游戏音频体验
- 福田实业00420发布中期业绩,股东应占亏损8160.7万港元同比盈转亏
- 微软独立游戏计划IDXbox迎“第一个10年”,官方发布纪念视频
- 半年报背后的故事:营收同比增长93.9%复宏汉霖“盈”在国际视野
- 越秀地产上半年营收321亿元同比增2.6%“三道红线”保持“绿档”
- 中信银行合肥分行联合滨湖世纪社区开展了“七夕故事汇”主题活动
- 雷克沙展示PCIe5.0SSDNM1090:群联E26主控+232层闪存
- TrendForce:第二季度DRAM内存产业营收止跌回升,环比增长20