Databricks, The Data & AI Company, pionnière du paradigme du data lakehouse, annonce aujourd’hui la disponibilité de Delta Live Tables (DLT), premier framework ETL à utiliser une simple approche déclarative pour construire des pipelines de données fiables et gérer automatiquement l’infrastructure de données à l’échelle. Transformer des requêtes SQL en pipelines ETL en production nécessite souvent un travail opérationnel fastidieux et compliqué. En utilisant des pratiques modernes d’ingénierie logicielle pour automatiser les parties les plus chronophages de la data ingénierie, les ingénieurs data et les analystes peuvent se concentrer sur la fourniture de données plutôt que sur l’exploitation et la maintenance des pipelines.
Alors que les entreprises élaborent des stratégies pour tirer le maximum de valeur de leurs données, nombre d’entre elles embaucheront des data ingénieurs coûteux et hautement qualifiés, une ressource déjà difficile à trouver, pour éviter les retards et l’échec des projets. Ce qui n’est pas toujours bien compris, c’est qu’un grand nombre de retards ou d’échecs de projets sont dus à un problème fondamental : il est difficile de construire des pipelines de données fiables qui fonctionnent automatiquement sans une grande rigueur opérationnelle pour les maintenir en état de marche. Ainsi, même à petite échelle, la majorité du temps d’un spécialiste des données est consacrée aux outils et à la gestion de l’infrastructure afin de s’assurer que ces pipelines de données ne s’interrompent pas.
Delta Live Tables est le premier et le seul framework ETL à résoudre ce problème en combinant à la fois les pratiques d’ingénierie modernes et la gestion automatique de l’infrastructure, alors que les initiatives passées sur ce marché n’ont seulement abordé qu’un aspect ou l’autre. DTL simplifie le développement ETL en permettant aux ingénieurs de décrire simplement les résultats des transformations de données. Il comprend alors en live les dépendances de l’ensemble du pipeline de données et automatise la quasi-totalité de la complexité manuelle. Il permet également aux data ingénieurs de traiter leurs données comme du code et d’appliquer les bonnes pratiques de l’ingénierie logicielle moderne, telles que les tests, le traitement des erreurs, le monitoring et la documentation, afin de déployer plus facilement des pipelines fiables à l’échelle. Delta Live Tables prend entièrement en charge Python et SQL et est conçu pour fonctionner avec des workloads en continu et par batch.
« Chez Shell, nous agrégeons toutes les données de nos capteurs dans un data store intégré. Delta Live Tables a permis à nos équipes de gagner en temps et en efficacité dans la gestion des données à l’échelle (record de plusieurs trillions) et d’améliorer continuellement nos capacités d’ingénierie en IA. Grâce à ces capacités qui viennent s’ajouter à l’architecture lakehouse existante, Databricks révolutionne les marchés de l’ETL et du data warehouse, ce qui est important pour des entreprises comme la nôtre. Nous sommes ravis de continuer à travailler avec Databricks en tant que partenaire d’innovation. » déclare Dan Jeavons, directeur général de Data Science, chez Shell.
« La puissance de DLT provient de ce que personne d’autre ne peut faire : combiner les pratiques modernes d’ingénierie logicielle et gérer automatiquement l’infrastructure. C’est une technologie qui change la donne et qui permettra aux data ingénieurs et aux analystes d’être plus productifs que jamais », déclare Ali Ghodsi, CEO et cofondateur de Databricks. « Il élargit également le champ d’action de Databricks. DLT prend en charge tout type de data workload avec une seule API, ce qui élimine le besoin de compétences avancées en data ingénierie. »
« Delta Live Tables favorise la collaboration et supprime les blocages des ressources de data ingénierie, ce qui donne à nos équipes d’analystes et de BI un accès en libre-service sans avoir besoin de connaître Spark ou Scala. En effet, l’un de nos data analystes, qui n’avait aucune expérience préalable de Databricks ni de Spark, a pu construire un pipeline DLT pour transformer des flux de fichiers sur S3 en ensembles de données exploratoires utilisables en quelques heures, en utilisant essentiellement du code SQL, » déclare Christina Taylor, Senior Data Engineer, Bread Finance.