Red Hat étend ses capacités d'inférence IA sur AWS

En ligne :

Rechercher

Actualité des entreprises

Red Hat étend ses capacités d’inférence IA sur AWS

Publication: Décembre 2025

Partagez sur

Les entreprises disposeront de choix supplémentaires, d’une plus grande flexibilité et d’une efficacité accrue pour exécuter leurs charges de travail d’IA en production...

Red Hat, premier éditeur mondial de solutions open source, annonce l’extension de sa collaboration avec Amazon Web Services (AWS) dans le but d’activer une inférence d’intelligence artificielle générative (gen AI) d’entreprise en environnement Amazon Web Services, en associant sa plateforme Red Hat AI aux puces IA d’AWS. Avec cette collaboration, Red Hat entend apporter aux décideurs IT la flexibilité dont ils ont besoin pour exécuter des inférences d’IA efficientes et de haute performance à grande échelle, indépendamment du matériel sous-jacent.

L’essor de l’IA générative et les besoins en inférences évolutives qui en découlent amènent les entreprises à réévaluer leur infrastructure IT. « D’ici 2027, 40 % des entreprises utiliseront des circuits intégrés personnalisés, notamment des processeurs ARM ou des puces spécifiques à l’intelligence artificielle et à l’apprentissage automatique, pour répondre à leurs besoins croissants d’optimisation des performances, de rentabilité et de calcul spécialisé », prévoit le cabinet IDC[1]. Cette tendance souligne la nécessité de recourir à des solutions optimisées capables d’améliorer la puissance de traitement, d’abaisser les coûts et d’accélérer le cycle d’innovation des applications d’IA de haute performance.

Grâce à cette collaboration entre Red Hat et AWS, les entreprises peuvent appliquer une stratégie complète d’IA de nouvelle génération en associant les capacités globales de la plateforme de Red Hat à l’infrastructure cloud et aux puces IA AWS Inferentia2 et AWS Trainium3. Les principaux avantages de ce partenariat sont les suivants :

L’intégration du serveur d’inférence Red Hat AI sur les puces IA d’AWS : le serveur d’inférence Red Hat AI Inference Server optimisé par le grand modèle de langage virtuel vLLM pourra fonctionner avec les puces IA d’AWS, notamment AWS Inferentia2 et AWS Trainium3. L’objectif est de fournir une couche d’inférence commune compatible avec n’importe quel modèle d’IA générique en vue d’aider les utilisateurs à conjuguer des performances plus élevées, une latence réduite et une rentabilité accrue pour accélérer leurs déploiements d’IA de production, avec un rapport prix/performance 30 à 40 % supérieur à celui des instances Amazon EC2 comparables architecturées autour d’un processeur graphique (GPU) ;
L’activation de l’IA sur la plateforme Red Hat OpenShift : Red Hat a collaboré avec AWS dans le but de développer un opérateur AWS Neuron pour les plateformes Red Hat OpenShift, Red Hat OpenShift AI et Red Hat OpenShift Service sur AWS, une plateforme d’applications entièrement gérée et prête à l’emploi sur AWS, dans l’optique de fournir aux entreprises un moyen plus transparent pour exécuter leurs charges de travail d’IA avec les accélérateurs d’AWS ;
Une facilité d’accès et de déploiement : en prenant en charge les puces IA d’AWS, Red Hat permettra aux utilisateurs de Red Hat sur AWS de bénéficier d’un accès amélioré et simplifié à des accélérateurs de haute capacité fortement sollicités. Par ailleurs, Red Hat a récemment annoncé les collections de contenus Ansible Content Collections certifiées amazon.ai pour la plateforme d’automatisation Red Hat Ansible en vue de faciliter l’orchestration des services d’IA en environnement AWS ;
Une contribution en amont des membres de la communauté : Red Hat et AWS collaborent afin d’optimiser un plugin pour puces IA d’AWS en amont pour le langage vLLM. En tant que contributeur commercial majeur au modèle virtuel vLLM, Red Hat s’engage à activer vLLM sur AWS pour accélérer les capacités des utilisateurs en matière d’entraînement et d’inférence d’IA. Le modèle vLLM constitue par ailleurs la fondation du cadre d’inférence de grands modèles de langage distribués pour Kubernetes llm-d, un projet open source centré sur la fourniture d’inférences à grande échelle qui est désormais disponible sous la forme d’une fonctionnalité commerciale dans la plateforme hybride Red Hat OpenShift AI 3.

Red Hat collabore depuis plusieurs années avec AWS pour permettre aux clients, du datacenter jusqu’à l’edge, de tirer pleinement parti de leurs environnements. Cette toute dernière étape a pour objectif de répondre aux besoins en constante évolution des entreprises qui intègrent l’IA à leur stratégie de cloud hybride avec pour objectif d’enregistrer des résultats optimums et efficients dans le domaine de l’IA générative.

Disponibilité

L’opérateur communautaire AWS Neuron est désormais disponible dans Red Hat OpenShift OperatorHub pour les clients utilisant Red Hat OpenShift ou Red Hat OpenShift Service sur AWS. La prise en charge de Red Hat AI Inference Server pour les puces AWS AI devrait être disponible en avant-première pour les développeurs en janvier 2026.

Citations

Joe Fernandes, vice president and general manager, AI Business Unit, Red Hat :

« En associant notre serveur d’inférence Red Hat AI d’entreprise basé sur le cadre innovant vLLM aux puces IA d’AWS, nous permettons aux entreprises de déployer et de faire évoluer leurs charges d’IA avec une efficacité et une flexibilité accrues. S’appuyant sur l’héritage open source de Red Hat, cette collaboration a pour vocation de rendre l’IA générative à la fois plus accessible et plus rentable dans les environnements de cloud hybrides. »

Colin Brace, vice president, Annapurna Labs, AWS :

« Les grandes entreprises exigent des solutions qui conjuguent des performances, une rentabilité et un choix opérationnel exceptionnels pour les charges de travail d’IA critiques. AWS a conçu ses puces Trainium et Inferentia pour rendre l’entraînement et l’inférence de l’IA haute performance plus accessibles et plus rentables. Notre collaboration avec Red Hat permet à nos clients de déployer l’IA générative à grande échelle en associant la flexibilité de la technologie open source à l’infrastructure d’AWS et à des accélérateurs d’IA spécialement conçus pour réduire les délais de rentabilisation, de la phase pilote à la production »

Jean-François Gamache, Chief Information Officer and vice president, Digital Services, CAE :

« La modernisation de nos applications critiques grâce à la plateforme Red Hat OpenShift Service sur AWS marque une étape importante dans notre transformation numérique. Cette plateforme aide nos développeurs à se concentrer sur des initiatives à forte valeur ajoutée, à stimuler l’innovation produit et à accélérer l’intégration de l’IA à nos solutions. La plateforme Red Hat OpenShift apporte la flexibilité et l’évolutivité dont nous avons besoin pour exercer un impact concret, des informations exploitables au coaching virtuel en temps réel en passant par la réduction significative du cycle de traitement des problèmes signalés par les utilisateurs. »

Anurag Agrawal, founder and chief global analyst, Techaisle :

« À mesure que le coût des inférences d’IA augmente, les entreprises privilégient l’efficacité au même titre que les performances. Cette collaboration illustre la stratégie du « tout modèle et tout matériel » que suit Red Hat en alliant sa plateforme de cloud hybride ouverte aux avantages économiques qui caractérisent les puces Trainium et d’Inferentia d’AWS. Cette approche permet aux DSI de rendre l’IA générative opérationnelle à grande échelle en passant d’une expérimentation coûteuse à une production durable et maîtrisée. »