L’introduction de ces modèles, avec leur capacité à extraire du sens et des informations des images, pourrait révolutionner l’interaction avec le contenu visuel. Par exemple, grâce à leur capacité de compréhension des images et de réponse aux questions, les modèles pourraient à l’avenir fournir une aide aux personnes malvoyantes lors d’achats en ligne.
Qwen-VL est la version multimodale de Qwen-7B, le modèle à 7 milliards de paramètres d’Alibaba Cloud pour son LLM Tongyi Qianwen qui est également disponible sur ModelScope en open source. Capable de comprendre à la fois des images et des textes en anglais et en chinois, Qwen-VL peut effectuer diverses tâches telles que répondre à des questions ouvertes liées à différentes images et générer des légendes d’images. Qwen-VL peut traiter des images d’une résolution de 448*448, ce qui permet une meilleure reconnaissance et une meilleure compréhension des images.
Qwen-VL-Chat permet des interactions plus complexes, telles que la comparaison d’images multiples et la réponse à des questions ouvertes. S’appuyant sur des techniques d’alignement, cet assistant d’IA présente un éventail de capacités créatives, notamment la rédaction de poèmes et d’histoires à partir d’images, le résumé du contenu de plusieurs images et la résolution de questions mathématiques affichées sur des images.
Dans le but de démocratiser les technologies de l’IA, Alibaba Cloud partage en open-source avec des universitaires, des chercheurs et des institutions commerciales du monde entier via sa communauté de modèles d’IA d’Alibaba, ModelScope, et la plateforme collaborative d’IA, Hugging Face.