Avec GPU Monitoring, Datadog aide les équipes à anticiper leurs besoins en capacité, à accélérer la résolution des incidents, à éviter les pannes coûteuses et à maîtriser leurs dépenses
Datadog, Inc. (NASDAQ : DDOG), fournisseur de la plateforme d’observabilité et de sécurité leader, pilotée par l’IA, Datadog annonce que GPU Monitoring est désormais accessible à l’ensemble de ses clients. Cette nouvelle solution répond à l’un des principaux défis des entreprises aujourd’hui : maîtriser la hausse des coûts liés à l’IA de manière efficace et évolutive.
« Les instances GPU représentent 14 % des coûts de calcul — un enjeu de taille alors que les entreprises peinent à développer des technologies AI-first de façon à la fois évolutive et efficiente. Si elles constatent l’augmentation de leurs coûts, elles ne disposent ni des moyens d’attribuer les dépenses GPU entre leurs différentes entités, ni d’une visibilité suffisante sur le contexte des charges de travail ou les leviers d’optimisation. Dans ces conditions, il devient difficile de budgéter et de planifier efficacement », explique Yanbing Li, Chief Product Officer chez Datadog.
Le lancement de GPU Monitoring marque la première fois qu’une solution tout-en-un offre une visibilité unifiée sur l’ensemble de la stack IA. Les clients disposent ainsi d’une vue consolidée reliant l’état de santé du parc de GPU, les coûts et les performances directement aux équipes qui en dépendent. Ils sont alors en mesure d’accélérer le diagnostic des charges de travail lentes et de générer des économies.
« La maîtrise des dépenses liées à l’IA devient un enjeu stratégique au niveau des conseils d’administration dès lors que les ressources sont mal allouées, que les charges d’apprentissage et d’inférence ralentissent et que les coûts s’envolent. Nous savons tous que le contrôle des coûts des GPU constitue un défi majeur, mais la plupart des entreprises en sont encore au stade de l’expérimentation, sans parvenir à obtenir une vision globale et cohérente de l’ensemble de la pile. Le monitoring des GPU remédie à cette situation, avec un niveau d’efficacité et de fiabilité inédit », a déclaré Li.
Aujourd’hui, les outils GPU disponibles se limitent à des métriques générales sur l’état des équipements. Ils ne permettent ni d’identifier les problèmes de contention des ressources entre fonctions, ni de comprendre les causes des échecs des charges d’apprentissage et d’inférence, ni encore de repérer les ressources inactives ou mal exploitées. Ce manque de visibilité ralentit les analyses et pousse les équipes à surprovisionner par précaution, entraînant ainsi des coûts superflus.
Le monitoring des GPU simplifie ce travail en reliant directement la télémétrie du parc aux charges de travail qui consomment ces ressources. Il offre aux équipes d’ingénierie plateforme et de machine learning une vue partagée pour mener leurs investigations conjointement, leur permettant ainsi de :
Passer à l’échelle de l’IA sans surcoûts : grâce à une visibilité accrue et à des prévisions basées sur les usages des parcs, ainsi qu’à des recommandations claires indiquant s’il est préférable d’acquérir de nouveaux GPU ou d’optimiser ceux déjà existants. Les équipes plateforme évitent des achats coûteux et des cycles d’approvisionnement longs, les équipes de machine learning accèdent plus rapidement aux capacités dont elles ont besoin, et la direction bénéficie d’un meilleur retour sur investissement, avec des dépenses mieux maîtrisées et plus prévisibles.
Accélérer la mise en production de l’IA : les charges de travail en attente sont directement reliées aux GPU, pods et processus qui les exécutent, ce qui permet aux équipes d’identifier les goulots d’étranglement en quelques minutes plutôt qu’en plusieurs heures, et aux ingénieurs de se concentrer sur la livraison des projets d’IA.
Éviter les interruptions coûteuses : les GPU défaillants sont identifiés de manière proactive avant que les pannes ne se propagent à l’ensemble du cluster et ne provoquent des retards dans les phases d’apprentissage et d’inférence.
Maximiser le retour sur investissement des dépenses GPU : les équipes sont responsabilisées quant à l’utilisation et aux coûts de leurs GPU, et peuvent facilement identifier les situations de sur-allocation ou de sous-utilisation. Cela leur permet de récupérer et de réallouer les ressources afin de réduire les dépenses inutiles.
« Datadog GPU Monitoring nous a permis de superviser très facilement notre infrastructure GPU multi-tenant. Sans configuration additionnelle, nous disposons immédiatement d’une visibilité, à la fois par instance et par appareil, sur l’utilisation des cœurs, la mémoire, la puissance et les températures. Les tableaux de bord sont complets dès le départ et faciles à personnaliser, et la création de vues isolées par client ne prend que quelques minutes », déclare Kai Huang, Head of Product chez Hyperbolic. « L’ajout de LLM Observability vient compléter la solution. Nous pouvons passer directement d’un pic de latence d’un modèle aux métriques GPU sous-jacentes, sans changer d’outil. Une observabilité IA full stack, intégrée au sein d’une plateforme unique, permet à la fois à notre équipe et à nos clients d’avancer plus rapidement, en toute confiance. »