Databricks augmente les capacités de sa plateforme Lakehouse

En ligne :

Rechercher

Actualité des entreprises

Databricks augmente les capacités de sa plateforme Lakehouse

Publication: Mai 2021

Partagez sur

Ces nouvelles fonctionnalités aident les équipes data à rationaliser des pipelines de données fiables et à explorer et gérer facilement les données multicloud et multiplateformes de l’entreprise...

Lors de sa conférence Data+AI Summit, Databricks annonce deux innovations qui augmentent la fiabilité, la gouvernance et l’étendue de sa plateforme lakehouse. Il s’agit de Delta Live Tables qui simplifie le développement et la gestion de pipelines de données fiables sur Delta Lake, et d’Unity Catalog, un nouveau catalogue de données unifié qui facilite l’exploration et la gouvernance de l’ensemble des données d’une entreprise, grâce à une vue complète des données sur tous les clouds et tous les catalogues existants. Unity Catalog s’appuie sur Delta Sharing, un nouveau protocole open source pour le partage sécurisé des données, également annoncé ce jour par Databricks. Cela permet aux entreprises d’utiliser Unity Catalog pour également sécuriser le partage des données avec des partenaires et les échanges de données, ce qui valorise encore plus la flexibilité qu’offre une plateforme lakehouse ouverte.

Delta Live Tables : bâtir les fondations d’un lakehouse avec des pipelines de données fiables

Delta Live Tables est un service cloud de la plateforme Databricks qui facilite et fiabilise l’ETL (Extraction, Transformation et Chargement) sur Delta Lake, afin de garantir le nettoyage et la cohérence des données lorsqu’elles sont utilisées pour l’analytique et le machine learning.

Aujourd’hui, la conception de pipelines d’ETL fiables à l’échelle est un défi difficile pour les entreprises. Peu de fiabilité entraîne des données manquantes ou inexactes dans les systèmes critiques pour l’entreprise, ce qui se traduit souvent par des erreurs coûteuses. Le processus actuel de conception des pipelines reste très manuel, nécessitant un travail très granulaire pour définir comment les données doivent être manipulées et selon quelle précision ces manipulations doivent être testées. De plus, à mesure que le nombre de pipelines augmente en réponse à la collecte et à l’utilisation d’un nombre croissant de données, la gestion et la mise à jour des pipelines deviennent une lourde charge opérationnelle.

Delta Live Tables résout ce problème en faisant abstraction des instructions de bas niveau, éliminant ainsi de nombreuses sources d’erreur potentielles. Avec Delta Live Delta, au lieu qu’un ingénieur data ait à expliquer comment chaque étape d’un pipeline doit fonctionner, il n’a qu’à spécifier les résultats du pipeline escomptés en utilisant des langages de haut niveau tels que SQL. Delta Live Tables crée alors automatiquement les instructions de transformation et de validation des données, et exécute un traitement uniforme des erreurs. La gestion des pipelines à l’échelle est améliorée grâce à une chaîne de dépendances qui exécute automatiquement les changements en aval, lorsqu’une table est modifiée. De plus, Delta Live Tables est capable de redémarrer les pipelines pour résoudre les erreurs transitoires. Si la panne nécessite une intervention manuelle, ou si une nouvelle logique métier exige des modifications des données, Delta Live Tables permet aux ingénieurs data de localiser facilement la source de l’erreur pour une remédiation rapide, puis un nouveau traitement des données à partir de ce point.

« Chez Shell, nous agrégeons toutes nos données de capteurs dans un data store intégré et travaillons à l’échelle de plusieurs billions d’enregistrements. Delta Live Tables a permis à nos équipes d’économiser du temps et des efforts dans la gestion des données à cette échelle. Nous nous concentrons sur l’amélioration continue de nos capacités d’ingénierie basée sur l’IA et disposons d’un environnement de développement intégré (IDE) doté d’une interface graphique qui prend en charge notre ETL. Grâce à cette fonctionnalité qui s’ajoute à l’architecture lakehouse existante, Databricks bouleverse le marché de l’ETL et du data warehouse, ce qui est important pour des entreprises comme la nôtre. Nous sommes ravis de continuer à travailler avec Databricks en tant que partenaire d’innovation. »

Unity Catalog : une gouvernance simplifiée des données et de l’IA multi-cloud

Aujourd’hui, la grande majorité des données au sein des entreprises affluent dans des data lakes basés sur le cloud. Mais les data lakes présentent des défis importants en matière de gouvernance. Tout d’abord, les fournisseurs de cloud n’offrent pas une granularité fine des contrôles d’accès. Les privilèges s’arrêtent au niveau du fichier, plutôt qu’à son contenu, ce qui fait de l’accès une proposition « tout ou rien ». La seule façon de contourner ce problème est de copier des sous-ensembles de données d’un fichier dans de nouveaux fichiers, ce qui donne lieu à une prolifération de fichiers qui est l’une des principales raisons pour lesquelles les data lakes deviennent des data swamps. L’adoption croissante du multi-cloud complique davantage le problème car chaque fournisseur de cloud dispose d’un ensemble différent d’API pour la gestion des accès. De plus, le monde a évolué au-delà de la simple tentative de gouverner des données bien structurées. Les données modernes prennent de nombreuses formes, telles que des tableaux de bord, des modèles de machine learning, et des données non structurées, telles que des vidéos et des images pour lesquelles les solutions de gouvernance des données existantes n’ont tout simplement pas été conçues.

Unity Catalog répond à ces problèmes en fournissant une interface unique qui assure une gouvernance granulaire de toutes les données, structurées et non structurées, dans tous les data lakes basés sur le cloud, afin de faciliter l’unification des données des entreprises sur la plateforme Databricks Lakehouse. Unity Catalog repose sur le standard ANSI SQL pour rationaliser la mise en œuvre et normaliser la gouvernance à travers les clouds. Unity Catalog s’intègre également aux catalogues de données existants pour permettre aux entreprises de s’appuyer sur ce qu’elles possèdent déjà et d’établir un modèle de gouvernance centralisé et évolutif sans coûts de migration élevés. Déjà, des partenaires stratégiques de Databricks, dont Alation, Collibra, Immuta et Privacera se sont engagés à contribuer à un écosystème d’intégrations performantes d’Unity Catalog.

https://www.databricks.com/