Snowflake Data Pipelines permet de charger les données efficacement

En ligne :

Rechercher

Actualité des entreprises

Snowflake Data Pipelines permet de charger les données efficacement

Publication: Juin 2019

Partagez sur

Snowflake, vient d’annoncer dans le cadre de sa première conférence, le Snowflake Summit, qui s’est tenue à San Francisco cette semaine, plusieurs évolutions de sa solution d’entrepôt de données dont une intégration de Snowflake Data Pipelines...

L’objectif de Snowflake Data Pipelines est de fournir aux clients des services continus, automatisés et économiques pour charger les données efficacement et sans aucun effort manuel. Ces améliorations vont permettre au datawarehouse conçu pour le cloud de Snowflake d’être encore plus performant.

Auto-Ingest

AWS et Azure fournissent des mécanismes de notification pour avertir les utilisateurs lorsqu’un objet est créé. Auto-Ingest utilise ces mécanismes et les superpose sur le service d’acquisition pour que ce dernier puisse automatiquement détecter et récupérer les fichiers créés sous une étape et les intégrer dans les tables appropriées. Cela réduit le temps d’attente pour le requêtage en ingérant et transformant les données au fur et à mesure de leur arrivée.

Streams and Tasks

Streams and Tasks vise à fournir des mécanismes de planification afin que les clients n’aient plus à recourir à des interventions manuelles pour organiser les tâches les plus courantes au sein des bases Snowflake. Cette fonction permet également aux clients d’automatiser les différentes étapes du processus de préparation et de tri des données entre les tables de staging et les tables de destination.

Connecteur Snowflake pour Kafka

Kafka Apache est une plate-forme de construction de pipelines pour gérer des flux continus d’enregistrements, et le connecteur rend rapide et facile le chargement de ces enregistrements à votre instance Snowflake pour faciliter le stockage et l’analyse.

Le connecteur Snowflake pour Kafka est disponible via le repository Maven. Après avoir installé le connecteur sur un cluster Kafka Connect, il peut être instancié via une simple configuration JSON ou via le Confluent Control Center. Après avoir configuré le connecteur pour un ensemble de sujets, il crée et gère les étapes, les pipelines et les fichiers au nom de l’utilisateur pour ingérer de façon fiable les informations dans les tables Snowflake. Il n’y a aucun coût supplémentaire pour l’utilisation du Snowflake Connector pour Kafka, qui est disponible gratuitement sous une licence Apache 2.0.

Les entreprises travaillent aujourd’hui avec des quantités massives de données et, pour analyser toutes ces données, elles ont besoin d’une vue unique de l’ensemble des celles-ci. Le défi est que les données sont stockées dans de multiples systèmes et services, et qu’elles doivent être combinées de manière à permettre une analyse approfondie. Le flux de données lui-même peut être particulièrement peu fiable parce qu’il y a de nombreux points pendant le transit des données d’un système à un autre où elles peuvent être corrompues. Au fur et à mesure que l’ampleur et la portée du rôle joué par les données augmentent, l’ampleur et l’impact des problèmes ne font que s’amplifier.

C’est pourquoi les data pipelines sont essentiels. Ils éliminent de nombreuses étapes manuelles du processus, ce qui apporte un flux de données automatisé et fluide d’une étape à l’autre. Ils sont aussi importants pour l’analyse en temps réel afin d’aider les entreprises à prendre des décisions plus rapidement.

http://www.snowflake.com/