Databricks, « The data and AI company », annonce le lancement de SQL Analytics, qui permet pour la première fois aux data analysts d’exécuter sur un data lake des workloads auparavant uniquement réservés à un data warehouse. Cela élargit l’usage traditionnel du data lake sur de la data science et du machine learning pour y inclure à présent toutes les workloads de données, telles que la BI et les requêtes SQL. Désormais, les équipes data dans les domaines du data engineering, de la data science et de l’analytique, sont en mesure de travailler sur une source de données unique. SQL Analytics concrétise la vision de Databricks sur l’architecture Lakehouse, qui associe la performance du data warehouse aux faibles coûts du data lake. Il en résulte un rapport prix/performance jusqu’à 9 fois supérieur à celui des data warehouses sur le cloud. SQL Analytics sera disponible en avant-première publique à partir du 18 novembre. Pour en savoir plus, cliquez : ici.
L’architecture Lakehouse simplifie les données et l’IA pour les entreprises. Auparavant, les équipes data devaient maintenir des data warehouses propriétaires pour les workloads de BI et des data lakes pour ceux de data science et de machine learning. En effet, aucune plateforme ne pouvait à elle seule répondre aux besoins de performance de la BI et de flexibilité de la data science. Coûteuse et compliquée à entretenir, cette coexistence des architectures traditionnelles a créé des silos de données qui freinent l’innovation et entravent la productivité des équipes data. Un Lakehouse y remédie en exécutant tous les workloads au sein d’une architecture unique.
Shell a choisi Databricks comme l’un des composants fondamentaux de sa plateforme Shell.ai. « Shell connaît une transformation digitale dans le cadre de son ambition de fournir des solutions énergétiques plus nombreuses et plus propres. C’est pourquoi, nous investissons massivement dans l’architecture de notre data lake. Notre ambition est de permettre à nos équipes data d’interroger rapidement nos ensembles de données volumineux de la façon la plus simple possible. La capacité d’exécuter des requêtes rapides sur des pétaoctets de données en utilisant des outils de BI standards nous change la donne. Notre approche de co-innovation avec Databricks nous a permis d’influencer la roadmap du produit et nous sommes impatients de le voir arriver sur le marché. » Dan Jeavons, GM Data Science.
« La question n’est plus de savoir si les entreprises vont transférer leurs données dans le cloud, mais quand. Une architecture Lakehouse bâtie sur un data lake est l’architecture idéale pour les entreprises data-driven et ce lancement offre à nos clients une meilleure option pour leur stratégie data, » déclare Ali Ghodsi, CEO et cofondateur de Databricks. « Nous avons collaboré avec des milliers de clients pour comprendre comment ils veulent faire évoluer leur stratégie data, et leur réponse est massivement en faveur des data lakes. En effet, ils disposent d’énormes volumes de données et désormais, grâce à SQL Analytics, ils ont la capacité d’interroger ces données en se connectant directement à leurs outils de BI tels que Tableau. »
SQL Analytics repose sur Delta Lake, un moteur de calcul au format ouvert, qui ajoute fiabilité, qualité et sécurité au data lake existant d’un client. Ainsi, les clients peuvent éviter de stocker de multiples copies de données et de verrouiller des données dans des formats propriétaires. Pour permettre une BI performante sur un data lake, SQL Analytics utilise deux innovations inédites. Premièrement, la solution fournit des points de requêtage élastiques et faciles à utiliser, qui maintiennent constamment une faible latence de requête, lorsque la charge de travail des utilisateurs est élevée. Deuxièmement, elle utilise Delta Engine, le moteur d’exécution de requêtes unique de Databricks, pour effectuer des requêtes extrêmement rapidement sur des petits ou vastes ensembles de données. Grâce aux connecteurs nativement intégrés aux principaux outils de BI, tels que Tableau et Microsoft Power BI, nos clients peuvent facilement intégrer SQL Analytics à leurs workflows de BI existants pour effectuer des analyses sur des données beaucoup plus fraîches, et plus complètes. SQL Analytics fournit également une interface native de requête SQL et de visualisation pour permettre aux analystes, data scientists et développeurs, sans accès aux outils de BI traditionnels, de concevoir des tableaux de bord et des rapports qui peuvent facilement être partagés au sein de leur organisation.
« A présent, les entreprises ont plus que jamais besoin d’une stratégie de données qui leur donne une flexibilité de rapidité et d’agilité », déclare François Ajenstat, Chief Product Officer chez Tableau. « Alors que les entreprises transfèrent rapidement leurs données dans le cloud, nous observons un intérêt croissant pour l’analytique sur le data lake. L’annonce de SQL Analytics offre aux clients une expérience entièrement nouvelle pour exploiter les informations provenant de vastes volumes de données avec la performance, la fiabilité et la scalabilité dont ils ont besoin. Nous sommes fiers d’être associés à Databricks pour faire de cette opportunité une réalité. »
L’architecture lakehouse est largement supportée par les partenaires de Databricks, tels que :
Partenaires BI : Tableau, Qlik, Looker, Thoughtspot
Partenaires Ingestion : Fivetran, Fishtown Analytics, Talend, Matillion
Partenaires Catalogue : Collibra, Alation
Partenaires sociétés de conseil : Slalom, Thorogood, Advancing Analytics
« Databricks SQL Analytics est une étape cruciale de la plus importante tendance d’architecture de données moderne : l’unification de l’analytique SQL traditionnelle avec le machine learning et la data science, » déclare George Frase, CEO de Fivetran. « Les sociétés investissent énormément dans la centralisation et la conservation de données. Elles devraient pouvoir faire ces investissements une seule fois, pour ensuite mettre en œuvre de multiples modèles analytiques dans un environnement unifié. L’architecture Lakehouse le permet. »
Cette annonce vient couronner la croissance remarquable de Databricks au cours de l’année passée. Au 3ème trimestre 2020, la société a réalisé un chiffre d’ affaire annualisé de + 350 M$, contre 200 M$ au 3ème trimestre 2019, ce qui la place parmi les éditeurs de logiciels cloud en très forte croissance. Sa croissance mondiale se traduit par des effectifs qui ont doublé au Royaume-Uni, aux Pays-Bas, en Allemagne, et en Suède, et ont été multipliés par cinq en Australie et en Inde. Databricks compte 1 500 employés dans le monde et des milliers d’équipes data exploitent sa plateforme Unified Data Analytics dans tous les secteurs et dans tous les métiers.
Atlasssian : Rohan Dhupelia, Data Platform Senior Manager : « Nous donnons les moyens à nos équipes dans toutes les fonctions de mieux collaborer pour atteindre leurs objectifs. Non seulement les besoins de chaque équipe sont uniques, ils évoluent aussi constamment. L’architecture simplifiée du Lakehouse nous permet d’ingérer d’importants volumes de données utilisateurs et d’effectuer les analyses nécessaires pour prédire les besoins des clients et améliorer notre expérience client. Une plateforme cloud unique et simple à utiliser nous permet de faire évoluer nos outils rapidement et d’en concevoir de nouveaux basés sur des informations directement exploitables. »
Wejo : Daniel Tibble, Head of Data :« Nous collectons les données de plus de 50 millions de voitures connectées auxquelles nous avons accès, afin d’améliorer l’expérience de conduite. Databricks et une architecture Lakehouse solide nous permettront de fournir à nos clients des analyses automatisées, afin qu’ils puissent récolter des informations sur près de 5 milliards de points de données par mois, le tout dans un environnement de streaming allant en quelques secondes de la voiture à une place de marché. »
Yipitdata : Andrew Gross, Director of Engineering : « En tant qu’entreprise dont l’objectif est de fournir à ses clients des études fondées sur des données, la quantité massive de données contenues dans notre data lake est notre force vitale. L’utilisation de Databricks et de Delta Lake nous a déjà permis de démocratiser les données à grande échelle, tout en réduisant de 60% le coût d’exécution des charges de travail en production, soit une économie de millions de dollars. Nous sommes ravis de continuer sur cette lancée en tirant parti de l’architecture de Lakehouse de Databricks qui permettra à chacun dans notre organisation, des analystes de recherche aux data scientists, d’utiliser les mêmes données de manière interchangeable. Une aide précieuse pour fournir plus vite que jamais à nos clients des informations innovantes. »