阿里云开源通义千问多模态视觉模型，号称“远超同等规模通用模型表现”

随着ChatGPT的快速进化吸引了全球网友的眼球，国内厂商也纷纷表示将推出相似的产品。而在前段时间，小编曾给大家整理过现在已经宣布推出的国产AI，包括百度“文心一言”、阿里巴巴“通义千问”、360“360智脑”等多款产品，其中百度的AI产品最早进行测试，目前已经可以在一些场景进行实际的应用。而就在昨晚，阿里云推出了大规模视觉语言模型Qwen-VL，目前已经在 ModeScope 开源，并且据相关媒体之前报道，阿里云此前已经开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。据悉，Qwen-VL是一款支持中英文等多种语言的视觉语言（Vision Language，VL）模型，相较于此前的VL模型，其除了具备基本的图文识别、描述、问答及对话能力之外，还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型，在模型架构上引入视觉编码器，使得模型支持视觉信号输入，该模型支持的图像输入分辨率为 448，此前开源的LVLM模型通常仅支持224分辨率。官方表示，该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景，在主流的多模态任务评测和多模态聊天能力评测中，取得了远超同等规模通用模型的表现。此外，在Qwen-VL的基础上，通义千问团队使用对齐机制，打造了基于LLM的视觉AI助手Qwen-VL-Chat，可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示，为了测试模型的多模态对话能力，他们构建了一套基GPT-4打分机制的测试集“试金石”，对Qwen-VL-Chat及其他模型进行对比测试，Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。而据之前的介绍，此前阿里云已经开源了通义千问70亿参数模型，包括通用模型Qwen-7B和对话模型Qwen-7B-Chat，两款模型均已上线魔搭社区，开源、免费、可商用。在今年4月时，阿里云发布了最新大语言模型“通义千问”。阿里云智能 CTO 周靖人曾表示，将开放通义千问的能力，帮助每家企业打造自己的专属大模型。据悉，阿里所有产品未来将接入通义千问进行全面改造，钉钉、天猫精灵率先接入测试，将在评估认证后正式发布新功能。周靖人还介绍，未来每一个企业在阿里云上既可以调用通义千问的全部能力，也可以结合企业自己的行业知识和应用场景，训练自己的企业大模型，“所有软件都值得接入大模型升级改造”。通过阿里云一步步操作来看，正在逐渐实现其之前的说法，对后续发展感兴趣的小伙伴可以保持关注。