Lors de sa conférence Data + AI Summit, Databricks annonce la dernière génération de son système de machine learning de pointe avec le lancement de Databricks Machine Learning, une nouvelle plateforme data native s’appuyant sur une architecture lakehouse ouverte. Avec Databricks Machine Learning, les fonctionnalités de ML nouvelles et existantes de la plateforme Lakehouse de Databricks sont intégrées pour une expérience collaborative spécialement conçue pour fournir aux ingénieurs ML tout ce dont ils ont besoin pour concevoir, entraîner, déployer et gérer des modèles de ML, de l’expérimentation à la production, en combinant de manière unique les données et le cycle de vie complet du ML. Databricks Machine Learning comprend également deux nouvelles fonctionnalités : Databricks AutoML pour améliorer le processus de machine learning en automatisant toutes les étapes fastidieuses et répétitives que les data scientists font actuellement manuellement, et Databricks Feature Store pour améliorer la découverte, la réutilisation et la gouvernance des variables d’entrée (features) des modèles dans un système intégré au sein de la plateforme de data ingénierie de l’entreprise
De nombreuses plateformes de ML sont déficientes parce qu’elles ne prennent pas en compte un défi majeur du ML : elles supposent naïvement que les données sont disponibles en haute qualité et prêtes à l’entraînement. Cela oblige les équipes data à assembler différentes solutions, adéquates pour les données mais pas pour l’IA, avec d’autres solutions adaptées à l’IA mais pas aux données. Pour compliquer encore les choses, les personnes responsables des plateformes et des pipelines de données (ingénieurs data) sont différentes de celles qui entraînent les modèles de ML (data scientists), elles-mêmes différentes de celles qui déploient les applications (ingénieurs en charge des applications). Par conséquent, les solutions de ML doivent combler le manque entre les données et l’IA, les outils nécessaires et les personnes impliquées.
Databricks Machine Learning fournit à chaque membre d’une équipe data les bons outils dans un environnement collaboratif unique. Les utilisateurs peuvent basculer entre Data Science/ Ingénierie, SQL Analytics, et les nouvelles expériences de Machine Learning pour accéder aux outils et aux fonctionnalités pertinents pour leur workflow quotidien. Databricks Machine Learning offre également une nouvelle page de démarrage axée sur le ML qui présente les nouvelles capacités et ressources de ML, avec un accès rapide à Experiments, Feature Store et Model Registry. Reposant sur une fondation lakehouse ouverte, Databricks Machine Learning garantit que les clients peuvent facilement travailler avec n’importe quel type de données, à n’importe quelle échelle, pour un machine learning utilisant des tables structurées traditionnelles, des données non structurées comme des vidéos et des images, jusqu’aux données en streaming provenant d’applications en temps réel et de capteurs IoT, puis se déplacer rapidement dans le workflow de ML pour accélérer la mise en production de davantage de modèles.
« Notre plateforme de machine learning, FlorenceAI, nous permet d’automatiser et d’accélérer le cycle de livraison des solutions ML à l’échelle. Databricks a été une technologie sous-jacente essentielle, des centaines de nos data scientists utilisant la plateforme pour fournir des dizaines de modèles en production, de sorte que nos équipes sont en mesure d’opérer à des ordres de grandeur plus rapides qu’auparavant, » déclare Slawek Kierner, Senior Vice President of Enterprise Data and Analytics chez Humana.
AutoML permet aux équipes data de créer plus rapidement des modèles ML en automatisant une grande partie des tâches fastidieuses liées aux phases d’expérimentation et d’entraînement. Mais les entreprises qui utilisent aujourd’hui les outils AutoML ont souvent du mal à mettre en production les modèles AutoML. Cela se produit parce que les outils ne fournissent aucune visibilité sur la manière dont ils parviennent à leur modèle final, ce qui rend impossible de modifier ses performances ou de résoudre un problème, lorsque des cas particuliers dans les données conduisent à des prédictions peu fiables. En outre, il peut être difficile pour les clients de satisfaire aux exigences de conformité qui les obligent à expliquer le fonctionnement d’un modèle, car ils n’ont pas de visibilité sur le code du modèle.
L’introduction des fonctionnalités AutoML dans Databricks ML adopte une approche unique de « boîte de verre ». Elle permet aux équipes data, non seulement de produire rapidement des modèles entraînés via une interface utilisateur ou une API, mais aussi de générer automatiquement avec du code des expériences et des notebooks sous-jacents, afin que les data scientists puissent facilement valider un ensemble de données peu familier ou modifier le projet ML généré. Les data scientists bénéficient d’une transparence totale sur le fonctionnement d’un modèle et peuvent prendre le contrôle à tout moment. Cette transparence est essentielle dans les environnements hautement réglementés et pour la collaboration avec des data scientists chevronnés.
De plus, toutes les expériences AutoML sont intégrées au reste de la plateforme Lakehouse de Databricks, y compris MLflow, afin de suivre tous les paramètres, métriques, artefacts et modèles associés à chaque essai pour faciliter la comparaison des modèles et leur déploiement en production.
Les modèles de ML sont conçus à l’aide de caractéristiques, qui sont les attributs utilisés par un modèle pour faire une prédiction. Pour travailler plus efficacement, les data scientists doivent être en mesure de découvrir quelles caractéristiques existent au sein de leur entreprise, comment elles sont conçues et où elles sont utilisées. Sinon, il est trop facile de perdre un temps considérable à réinventer sans cesse des caractéristiques. De plus, le code des fonctionnalités doit rester cohérent entre les différentes équipes qui participent au workflow du ML, sinon les performances du modèle s’éloignent entre les cas d’usage en temps réel et les cas d’usage en batch (un problème appelé déséquilibre online/offline).
Databricks Feature Store est la première fonctionnalité de son genre à être conçue en parallèle d’une plateforme de données et de MLOps. Une intégration étroite aux populaires frameworks open source Delta Lake et MLflow garantit que les données stockées dans le Feature Store sont ouvertes, et que les modèles entraînés avec n’importe quel framework de ML bénéficient de l’intégration du Feature Store au format de modèle de MLflow. Plus important encore, le Feature Store élimine le déséquilibre online/offline en rassemblant les références du Feature Store avec le modèle, de sorte que le modèle lui-même peut consulter les caractéristiques du Feature Store au lieu de demander à une application cliente de le faire. Par conséquent, les caractéristiques peuvent être mises à jour sans que l’application client qui envoie les requêtes au modèle ne soit modifiée.
La fonction Feature Store permet également de réutiliser et d’explorer les caractéristiques grâce à un traçage automatique de la version exacte du code utilisé et des sources de données utilisées pour le calcul des caractéristiques. Cela signifie qu’un data scientist peut prendre ses données brutes et trouver toutes les caractéristiques qui sont déjà calculées sur la base de ces mêmes données. La fonction Feature Store sait exactement quels modèles et points de terminaison consomment une caractéristique donnée, ce qui facilite le traçage de bout en bout et permet de décider en toute sécurité si une table de caractéristiques peut être mise à jour ou supprimée.