Databricks, « The data and Ai company » et pionnière du paradigme du data lakehouse, annonce plusieurs contributions à ses projets open source populaires basés sur les données et l’IA, notamment Delta Lake, MLflow et Apache Spark.
Lors du Data + AI Summit, le plus grand rassemblement de la communauté data et IA open source, Databricks annonce faire don à la Linux Foundation de toutes les fonctionnalités et améliorations de Delta Lake. Elle mettra également en open source toutes les API de Delta Lake dans le cadre de l’annonce de Delta Lake 2.0. Par ailleurs, l’entreprise annonce MLflow 2.0, qui comprend MLflow Pipelines, une nouvelle fonctionnalité permettant d’accélérer et de simplifier les déploiements de modèles ML. Enfin, l’entreprise présente Spark Connect, pour permettre l’utilisation de Spark sur n’importe quel appareil et Project Lightspeed, un moteur de Spark Structured Streaming de nouvelle génération pour le streaming de données sur le lakehouse.
« Depuis le début, Databricks s’est engagée en faveur des standards et de la communauté open source. Nous avons créé, contribué, favorisé la croissance et fait don de certaines des innovations les plus marquantes de la technologie open source moderne, » déclare Ali Ghodsi, cofondateur et CEO de Databricks. « Les data lakehouse ouverts deviennent rapidement des standards en matière de gestion des données et d’IA des entreprises les plus innovantes. Delta Lake, MLflow et Spark sont au cœur de cette transformation architecturale et nous sommes fiers de contribuer à l’accélération de leur innovation et de leur adoption. »
Delta Lake 2.0 offrira à tous les utilisateurs de Delta Lake des performances de requête sans précédent et permettra à chacun de construire un data lakehouse ultra performant reposant sur des standards ouverts. Grâce à cette contribution, les clients de Databricks et la communauté open source bénéficieront de l’ensemble des fonctionnalités et des meilleures performances de Delta Lake 2.0. La préversion de Delta Lake 2.0 est désormais disponible et sa disponibilité générale devrait être annoncée dans le courant de l’année. L’étendue de l’écosystème Delta Lake le rend flexible et puissant pour un grand nombre de cas d’usages. Le tout est alimenté par une communauté dynamique de plus de 6 400 membres, avec plus de 70 organisations participantes.
MLflow, l’un des projets de machine learning (ML) open source les plus réussis, a établi les standards des plateformes ML. Le lancement de MLflow 2.0 introduit MLflow Pipelines à la plateforme, permettant ainsi d’augmenter considérablement le délai de mise en production et d’améliorer l’exécution à l’échelle grâce à la standardisation. MLflow Pipelines offre aux data scientists des modèles prédéfinis, prêts pour la production, basés sur le type de modèle qu’ils conçoivent. Ils peuvent ainsi lancer et accélérer de manière fiable le développement de modèles sans requérir à l’intervention des ingénieurs de production.
En tant que principal moteur unifié pour l’analyse de données à grande échelle, Spark évolue en toute fluidité pour traiter des ensembles de données de toutes tailles. Cependant, l’absence de connectivité à distance et le poids des applications développées et exécutées sur le nœud du driver constituent un obstacle pour les exigences des applications modernes basées sur les données. Pour y remédier, Databricks a présenté Spark Connect, une interface client et serveur pour Apache Spark basée sur l’API DataFrame qui découplera le client et le serveur pour une meilleure stabilité, et permettra une connectivité à distance intégrée. Avec Spark Connect, les utilisateurs pourront accéder à Spark depuis n’importe quel appareil.
En collaboration avec la communauté Spark, Databricks a également annoncé Project Lightspeed, la prochaine génération du moteur Spark Streaming. Avec l’augmentation de la diversité des applications qui se tournent vers le streaming de données, de nouvelles exigences sont apparues pour gérer les workloads de données pour lakehouse les plus demandés, à savoir le streaming de données. Spark Structured Streaming a été largement adopté depuis les débuts du streaming en raison de sa facilité d’utilisation, de ses performances, de son vaste écosystème et de ses communautés de développeurs. Dans cette perspective, Databricks collaborera avec la communauté et encouragera la contribution à Project Lightspeed afin d’améliorer les performances, le support de l’écosystème pour les connecteurs et les fonctionnalités de traitement des données avec de nouveaux opérateurs et API, tout en simplifiant le déploiement, les opérations, le monitoring et la résolution de problèmes.