随着ChatGPT的快速进化吸引了全球网友的眼球,国内厂商也纷纷表示将推出相似的产品。而在前段时间,小编曾给大家整理过现在已经宣布推出的国产AI,包括百度“文心一言”、阿里巴巴“通义千问”、360“360智脑”等多款产品,其中百度的AI产品最早进行测试,目前已经可以在一些场景进行实际的应用。而就在昨晚,阿里云推出了大规模视觉语言模型Qwen-VL,目前已经在 ModeScope 开源,并且据相关媒体之前报道,阿里云此前已经开源通义千问70亿参数通用模型Qwen-7B和对话模型Qwen-7B-Chat。据悉,Qwen-VL是一款支持中英文等多种语言的视觉语言(Vision Language,VL)模型,相较于此前的VL模型,其除了具备基本的图文识别、描述、问答及对话能力之外,还新增了视觉定位、图像中文字理解等能力。Qwen-VL以Qwen-7B为基座语言模型,在模型架构上引入视觉编码器,使得模型支持视觉信号输入,该模型支持的图像输入分辨率为 448,此前开源的LVLM模型通常仅支持224分辨率。官方表示,该模型可用于知识问答、图像标题生成、图像问答、文档问答、细粒度视觉定位等场景,在主流的多模态任务评测和多模态聊天能力评测中,取得了远超同等规模通用模型的表现。此外,在Qwen-VL的基础上,通义千问团队使用对齐机制,打造了基于LLM的视觉AI助手Qwen-VL-Chat,可让开发者快速搭建具备多模态能力的对话应用。通义千问团队同时表示,为了测试模型的多模态对话能力,他们构建了一套基GPT-4打分机制的测试集“试金石”,对Qwen-VL-Chat及其他模型进行对比测试,Qwen-VL-Chat在中英文的对齐评测中均取得了开源LVLM最好结果。而据之前的介绍,此前阿里云已经开源了通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat,两款模型均已上线魔搭社区,开源、免费、可商用。在今年4月时,阿里云发布了最新大语言模型“通义千问”。阿里云智能 CTO 周靖人曾表示,将开放通义千问的能力,帮助每家企业打造自己的专属大模型。据悉,阿里所有产品未来将接入通义千问进行全面改造,钉钉、天猫精灵率先接入测试,将在评估认证后正式发布新功能。周靖人还介绍,未来每一个企业在阿里云上既可以调用通义千问的全部能力,也可以结合企业自己的行业知识和应用场景,训练自己的企业大模型,“所有软件都值得接入大模型升级改造”。通过阿里云一步步操作来看,正在逐渐实现其之前的说法,对后续发展感兴趣的小伙伴可以保持关注。
阿里云开源通义千问多模态视觉模型,号称“远超同等规模通用模型表现”
本文来自网络,不代表乐淘资源立场,转载请注明出处,如有侵权问题需要处理,请联系站长删除。联系QQ 917118162