100 % des principaux modèles d’IA générative testés ont échoué à produire du code sécurisé lors de scénarios de développement critiques.
La vitesse à laquelle les entreprises adoptent le développement IA-native dépasse celle de la mise en place des protections de sécurité essentielles, les exposant à des vulnérabilités systémiques. Tels sont les résultats du nouveau rapport Armis Labs, Trusted Vibing Benchmark.
Les chercheurs Armis Labs ont évalué 18 modèles d’IA générative du marché sur 31 scénarios de test et mis en évidence un taux d’échec de 100 % dans la génération de code sécurisé. Les vulnérabilités sont particulièrement critiques dans des domaines sensibles tels que les dépassements de mémoire (buffer overflows), le téléversement de fichiers de conception et les systèmes d’authentification. Conclusion : pour réduire leur exposition au risque, les entreprises devraient intégrer rapidement des contrôles de sécurité applicative adaptés aux environnements IA natifs.
« L’ère du vibe coding est là, mais la vitesse ne doit pas se faire au détriment de la sécurité », déclare Nadir Izrael, CTO et cofondateur de Armis. « Les acteurs les plus problématiques sont ceux qui génèrent des vulnérabilités avec leurs modèles d’IA tout en vendant des solutions censées les corriger. Sans supervision humaine, l’intégration de code autonome ne freine pas seulement la vitesse de développement, elle accumule de la dette technique critique. »
Angles morts généralisés : dans plus de 30 % des cas, même les modèles les plus avancés génèrent du code vulnérable. Ce constat est aggravé par un dangereux décalage de perception : selon le rapport Armis Cyberwarfare 2026 , 77 % des décideurs IT font confiance à la sécurité du code tiers utilisé dans leurs applications critiques, alors que 16 % reconnaissent ne pas savoir s’il est réellement audité contre des vulnérabilités majeures.
Des écarts de performance marqués : tous les modèles ne se valent pas. Gemini 3.1 Pro se distingue par une posture de sécurité solide, tandis que des modèles propriétaires plus anciens présentent un nombre plus élevé de vulnérabilités et manquent de contrôles de sécurité intégrés.
Coût ¡Ù s¨¦curit¨¦ : prix élevé ne rime pas forcément avec meilleure protection. Des modèles open source plus accessibles, comme Qwen 3.5 ou Minimax M2.5, affichent des performances de sécurité compétitives pour un coût bien inférieur.
« Face au code généré par l’IA, les entreprises avancent à l’aveugle », ajoute Nadir Izrael. « Pour progresser réellement, la sécurité applicative doit passer d’une logique de “gestion de scans” à une véritable gestion du risque. Les équipes sécurité doivent cesser de se noyer dans le bruit des alertes et s’appuyer sur des contrôles natifs IA, capables de prioriser les vulnérabilités en fonction de leur impact réel sur le business. »
Le Trusted Vibing Benchmark Report, régulièrement mis à jour par l’équipe d’Armis Labs, évalue comment les modèles d’IA, commerciaux ou open source, génèrent du code sécurisé et évitent les vulnérabilités critiques dans différents scénarios. L’étude se concentre sur plusieurs aspects : elle teste le code généré fonction par fonction, c’est-à-dire les plus petites unités de code (“atomiques”), le choix des prompts, évalue l’environnement de test utilisé pour valider le code, et analyse l’efficacité des outils de sécurité applicative employés pour détecter et corriger les failles.
Armis Centrix™ for Application Security permet aux organisations de sécuriser l’ensemble de leur chaîne logicielle grâce à la détection, la contextualisation et la remédiation assistées par IA.