Red Hat démocratise l'IA générative pour tous les modèles et accélérateurs

En ligne :

Rechercher

Actualité des entreprises

Red Hat démocratise l’IA générative pour tous les modèles et accélérateurs

Publication: Mai 2025

Partagez sur

Red Hat AI Inference Server, optimisé par le langage vLLM et enrichi par les technologies Neural Magic, rend les inférences d’IA à la fois plus rapides et plus performantes dans les environnements de cloud hybrides à un coût optimisé...

Red Hat, Inc, premier éditeur mondial de solutions open source, franchit une étape majeure sur la voie de la démocratisation de l’IA générative (genAI) en environnements de cloud hybrides avec le lancement de Red Hat AI Inference Server. Cette nouvelle composante de la gamme de produits d’entreprise Red Hat AI est le fruit du puissant projet communautaire vLLM (virtual Large Language Model), un grand modèle de langage virtuel qui bénéficie de l’intégration des technologies Neural Magic de Red Hat pour bénéficier à la fois d’une plus grande rapidité, d’une meilleure efficacité au niveau de l’accélérateur et d’une rentabilité accrue en vue de concrétiser la vision de Red Hat : exécuter n’importe quel modèle d’IA générative sur n’importe quel accélérateur d’IA et sur n’importe quel environnement de cloud. Déployée de manière autonome ou en tant que composante intégrée aux outils Red Hat Enterprise Linux AI (RHEL AI) et Red Hat OpenShift AI, cette plateforme révolutionnaire permet aux entreprises de mettre en œuvre et de monter leurs projets d’IA générative en production avec davantage de confiance.

L’inférence est le moteur d’exécution critique de l’IA sur lequel des modèles pré-entraînés traduisent des données en réponses concrètes. Point central de l’interaction avec l’utilisateur, elle exige des réponses rapides et précises. À l’heure où les modèles d’IA générative sont de plus en plus complexes et les déploiements de production montent en puissance, l’inférence peut devenir un goulot d’étranglement conséquent qui consomme les ressources matérielles tout en menaçant de paralyser la réactivité et d’accroître les coûts d’exploitation. À ce titre, les serveurs d’inférence robustes ne constituent plus un luxe, mais une nécessité pour réaliser le plein potentiel de l’intelligence artificielle à grande échelle en permettant aux entreprises de gérer les complexités sous-jacentes avec une plus grande facilité.

Red Hat relève directement ces défis avec Red Hat AI Inference Server, une solution d’inférence open source conçue pour offrir des performances élevées et qui s’appuie sur des outils de compression et d’optimisation de modèles de haute technologie. Grâce à cette solution à la pointe de l’innovation, les entreprises peuvent exploiter pleinement le pouvoir transformatif de l’IA générative en permettant aux utilisateurs de vivre des expériences nettement plus réactives et de bénéficier d’une liberté sans égal dans le choix des accélérateurs d’IA, des modèles et de l’environnement IT.

Modèles vLLM : étendre l’innovation aux inférences

Red Hat AI Inference Server s’appuie sur le projet de pointe vLLM lancé par l’Université de Californie UC Berkeley au milieu de l’année 2023. Ce projet communautaire englobe une inférence d’IA générative à haut débit, la prise en charge d’un contexte d’entrée étendu, l’accélération des modèles multi-GPU, le traitement en lots continus (continuous batching), etc.

Associée à l’intégration immédiate des principaux grands modèles « frontières » que sont Gemma, Llama, Mistral ou Phi, la prise en charge étendue des modèles publics par le langage vLLM élève le langage vLLM au rang de standard pour les futures innovations en matière d’inférences d’IA. Les principaux fournisseurs de modèles « frontières » adoptent de plus en plus le langage vLLM, ce qui souligne son rôle décisif pour l’avenir de l’IA générative.

Présentation de Red Hat AI Inference Server

Red Hat AI Inference Server intègre les innovations de pointe qui caractérisent le langage vLLM dans ses fonctionnalités d’entreprise. Cet outil est disponible en tant qu’offre conteneurisée autonome ou au sein des solutions RHEL AI et Red Hat OpenShift AI.

Quel que soit l’environnement de déploiement, les utilisateurs de Red Hat AI Inference Server ont à leur disposition une distribution renforcée et supportée du langage vLLM et bénéficient :

D’outils de compression LLM intelligents qui permettent de réduire de manière significative la taille des modèles d’IA fondamentaux et affinés, ce qui minimise la consommation de puissance de calcul tout en conservant, voire en améliorant potentiellement la précision du modèle ;

D’un référentiel de modèles optimisé, hébergé dans Red Hat AI sur Hugging Face, qui permet d’accéder instantanément à un ensemble validé et optimisé de modèles d’IA de premier plan prêts pour le déploiement d’inférences ; cette fonctionnalité contribue à multiplier l’efficacité par 2 à 4 sans compromettre la précision du modèle ;

De l’assistance au niveau entreprise et de l’expertise acquise par Red Hat depuis plusieurs décennies dans la migration de projets communautaires vers des environnements de production ;

De la prise en charge tierce partie pour une flexibilité de déploiement accrue, ce qui permet de déployer Red Hat AI Inference Server sur des plateformes Linux et Kubernetes hors-Red Hat, conformément à la politique de support tierce partie de Red Hat.

La vision de Red Hat : tous les modèles, tous les accélérateurs, sur n’importe quel cloud

L’avenir de l’IA doit être défini par des opportunités sans limites, et non limité par des infrastructures cloisonnées. Selon la vision de Red Hat, les entreprises doivent être en mesure de déployer n’importe quel modèle sur n’importe quel accélérateur et dans n’importe quel environnement de cloud afin d’offrir aux utilisateurs une expérience exceptionnelle, plus homogène et sans coûts exorbitants. Pour libérer le plein potentiel des investissements consacrés à l’IA, les entreprises ont besoin d’une plateforme d’inférence universelle, un standard d’innovation pour une IA plus transparente et plus performante, dès aujourd’hui et pour les années à venir.

Pionnier de l’entreprise ouverte après avoir fait de Linux la fondation informatique de nouvelle génération, Red Hat est aujourd’hui prêt à architecturer l’avenir des inférences d’IA. Le langage vLLM joue un rôle décisif dans la standardisation des inférences d’IA générative et, dans ce contexte, Red Hat s’est engagé à créer un écosystème dynamique autour non seulement de la communauté vLLM mais également du projet llm-d pour les inférences distribuées à grande échelle. La vision de Red Hat est claire : indépendamment du modèle d’IA, de l’accélérateur sous-jacent et de l’environnement de déploiement, Red Hat entend imposer le langage vLLM comme le standard d’inférence ouverte incontournable dans les nouveaux environnements de cloud hybrides.

Citation

Joe Fernandes, vice-president et general manager, AI Business Unit, Red Hat : « L’inférence est l’endroit où se concrétise véritablement la promesse de l’IA générative, où les interactions avec les utilisateurs sont concrétisées par des réponses rapides et précises fournies par un modèle donné. Toutefois, ce processus doit être exécuté de manière efficace et rentable. La solution Red Hat AI Inference Server est conçue pour répondre à la demande d’inférences performantes et réactives à grande échelle tout en minimisant la consommation de ressources et en fournissant une couche d’inférence commune compatible avec n’importe quel modèle, n’importe quel accélérateur et sur n’importe quel environnement de cloud. »

Ramine Roane, vice-présidente de l’entreprise, gestion des produits d’IA, AMD : « En collaboration avec Red Hat, AMD propose des solutions prêtes à l’emploi pour favoriser une IA générative efficace dans l’entreprise. Red Hat AI Inference Server activé sur les GPU AMD Instinct™ dote les organisations de capacités d’inférence d’IA de niveau entreprise et alimentées par la communauté, soutenues par des accélérateurs matériels entièrement validés. »

Jeremy Foster, vice-président senior et directeur général, Cisco : « Les workloads d’IA ont besoin de vitesse, de cohérence et de flexibilité, ce qui est exactement ce que Red Hat AI Inference Server est conçu pour fournir. Cette innovation offre à Cisco et Red Hat l’opportunité de continuer à collaborer sur de nouvelles façons de rendre les déploiements d’IA plus accessibles, efficaces et évolutifs, aidant ainsi les organisations à se préparer pour l’avenir. »

Bill Pearson, vice-président, Data Center & AI Software Solutions and Ecosystem, Intel : « Intel est ravi de collaborer avec Red Hat pour permettre à Red Hat AI Inference Server d’utiliser les accélérateurs Intel® Gaudi®. Cette intégration fournira à nos clients une solution optimisée pour rationaliser et mettre à l’échelle l’inférence de l’IA, offrant des performances et une efficacité avancées pour une large gamme d’applications d’IA d’entreprise. »

John Fanelli, vice-président, Enterprise Software, NVIDIA : « L’inférence haute performance permet aux modèles et aux agents d’IA non seulement de répondre, mais aussi de raisonner et de s’adapter en temps réel. Grâce à l’accélération informatique ouverte et complète de NVIDIA et à Red Hat AI Inference Server, les développeurs peuvent exécuter des raisonnements efficaces à grande échelle dans des clouds hybrides et déployer en toute confiance Red Hat Inference Server avec la nouvelle conception validée de NVIDIA Enterprise AI. »

https://www.redhat.com/