À l’occasion d’AWS re:Invent 2023, Starburst, la plateforme analytique du data lake, annonce de nouvelles fonctionnalités qui permettent aux organisations de construire et de faire évoluer des applications data, sans compromettre les performances ou les coûts. Ces fonctionnalités dans Starburst Galaxy aident les clients à simplifier leurs développements utilisant le data lake en unifiant l’ingestion, la gouvernance et le partage des données sur une seule plateforme.
Starburst simplifie la construction et la maintenance des data lakes pour des applications interactives avec :
Une analyse en temps quasi réel : grâce à l’ingestion en streaming, les clients peuvent utiliser Kafka pour alimenter leur data lake et s’assurer que leurs applications disposent des informations les plus récentes pour les utilisateurs. La prise en charge de solutions entièrement gérées, telles que Confluent Cloud, est également prévue.
Une gouvernance automatisée des données : les modèles de machine learning de Gravity, une couche universelle de découverte, de gouvernance et de partage de données dans Starburst Galaxy, identifient et classent automatiquement les nouvelles données qui arrivent dans le data lake pour certaines catégories. Gravity applique ensuite des politiques accordant ou restreignant l’accès à ces données, ce qui simplifie le travail des équipes qui traitent des données sensibles, telles que les informations personnelles identifiables (PII).
Une maintenance automatisée des données : ces fonctionnalités permettent aux clients d’optimiser facilement leur data lake en effectuant des tâches de gestion courantes telles que la compaction et l’optimisation des fichiers. Les utilisateurs peuvent conserver des performances comparables à celles d’un data warehouse sans avoir à adopter des processus manuels fastidieux, à mesure que le volume et la complexité des données augmentent.
Un partage universel des données avec une observabilité intégrée : avec Gravity, les utilisateurs peuvent facilement regrouper des ensembles de données en data products partageables pour alimenter les applications des utilisateurs finaux, quels que soient la source, le format ou le fournisseur cloud. Une nouvelle fonctionnalité permettra aux utilisateurs de partager ces data products en toute sécurité avec des tiers, tels que des partenaires, des fournisseurs ou des clients.
Une analyse en libre-service alimentée par l’IA : ces nouvelles fonctionnalités de Galaxy, telles que la conversion texte-SQL, permettent aux équipes data de déléguer l’analyse exploratoire de sources de données aux utilisateurs métiers, libérant leur temps pour qu’ils puissent se consacrer à la construction et à l’évolution des pipelines de données.
Dans le cadre du partenariat de Starburst avec Amazon Web Services (AWS), ces fonctionnalités seront disponibles sur les instances AWS, y compris AWS Graviton3 et Amazon Simple Storage Service (Amazon S3) et s’intégreront de manière transparente aux outils de base tels qu’AWS QuickSight et aux nouveaux outils tels qu’Amazon Bedrock.
“Les initiatives à forte consommation de données telles que l’IA nécessitent pour aboutir une base de données solide”, a déclaré Justin Borgman, cofondateur et CEO de Starburst. “Nous fournissons cette base indispensable, en offrant à nos clients la possibilité d’accéder rapidement à toutes leurs données pour les analyser, afin de faire évoluer leurs applications de la première centaine d’utilisateurs au premier millier et au-delà. Nous garantissons des performances optimales même lorsque le nombre d’accès concurrents et les volumes de données augmentent de façon exponentielle. Les nouvelles fonctionnalités d’ingestion en streaming, de maintenance des données, d’automatisation de la gouvernance et de partage des données de Starburst facilitent considérablement la création, le déploiement et l’évolutivité d’applications utilisant le data lake.”
“Après avoir créé des data products de haute qualité avec Starburst, nous avons saisi l’opportunité d’utiliser les LLM pour faciliter ce processus”, a déclaré Fahad Ahmad, Data Science Leader chez Halliburton. “Auparavant, il fallait deux à trois semaines pour obtenir une réponse à une question ad hoc. En intégrant un modèle LLM à l’architecture des data products de Starburst, les utilisateurs peuvent poser des questions en langage courant, les convertir en SQL et obtenir la réponse immédiatement.”