En poursuivant votre navigation sur ce site, vous acceptez l’utilisation de cookies pour vous proposer des contenus et services adaptés à vos centres d’intérêts. En savoir plus et gérer ces paramètres. OK X
 
 

 

 

Dossiers

Gérer la croissance des données scientifiques

Par Gabriel Chaher, Vice-Président Global Market Development chez Quantum

Publication: 8 décembre

Partagez sur
 
« Les données sont le moteur du secteur du numérique. » L’omniprésence de la technologie dans le monde et la promesse du Big Data ont fait couler beaucoup d’encre. Nous avons tous entendu ce mantra...
 

Toutes spéculations mises à part, la croissance du volume des données est un fait qui ne peut être ignoré. Le cabinet d’analyse IDC estime que le volume des données dans le monde atteindra 163 billions de gigaoctets d’ici 2025. Tous les secteurs d’activité transports, fabrication, soins de santé, produits de grande consommation, services financiers, recherche et développement, pour n’en citer que quelques-uns cherchent de nouveaux moyens pour contrôler et exploiter le volume croissant des données.

Les scientifiques savent bien que les données alimentent la connaissance, les découvertes et l’innovation. L’Institute of Cancer Research (ICR), par exemple, affirme que les analyses du Big Data jouent un rôle important dans la découverte de médicaments anticancéreux. Les scientifiques analysent d’énormes volumes de données issus de prélèvements de patients, du séquençage génomique, d’images médicales, de résultats obtenus en laboratoire, de données expérimentales, de données pharmacologiques et de bien d’autres sources pour les aider dans leurs efforts.

Selon le docteur Bissan Al-Lazikani, responsable Science des données chez ICR, des données plus abondantes sont un atout : « Recueillir plus les données, profiler davantage de patients et disposer d’algorithmes plus intelligents améliore notre capacité à découvrir des médicaments contre le cancer. »

Croissance à grande échelle

D’après Illumina, fournisseur de premier plan de solutions de séquençage de l’ADN, séquencer un génome humain coûtait 300 000 dollars en 2006. Aujourd’hui, grâce aux séquenceurs haut de gamme, ce coût a chuté à 1 000 dollars et, avec la nouvelle génération de machines, pourrait descendre à 100 euros.

Le séquençage génomique devenant plus rapide et plus abordable, les chercheurs exécutent un nombre accru d’opérations de séquençage et génèrent davantage de données. Par exemple, l’Institut suisse de bioinformatique (SIB), organisme sans but lucratif constitué en 1998, est un acteur majeur de la recherche en Suisse. Fédérant 60 groupes de services et de recherche en bioinformatique et quelques 700 scientifiques issus d’établissements d’enseignement supérieur et d’organismes de recherche, il applique des méthodes computationnelles et l’analyse de données à grande échelle dans le domaine de la génomique, la protéomique et d’autres recherches en bioinformatique.

SIB soutient les projets de 300 équipes de recherche actives dans ses six centres de séquençage et gère environ cinq projets différents par semaine. Le volume des données augmente rapidement, les opérations de séquençage générant jusqu’à 30 téraoctets de données par semaine.

Autre exemple, celui de GWDG (Gesellschaft für wissenschaftliche Datenverarbeitung mbH Göttingen), centre de ressources informatiques commun à l’université de Göttingen et à la Société Max Planck, qui constate la croissance régulière des volumes de données au fil des années. Aujourd’hui, le centre soutient 40 000 utilisateurs menant des activités de recherche et de formation, gère des milliards de fichiers et 7 pétaoctets de données environ.

Les organismes de recherche considèrent qu’il est essentiel de pouvoir collecter et analyser davantage de données pour faire progresser la science. Cependant, gérer un volume de données accru présente des difficultés.

Travailler avec des pétaoctets de données

Les données ne sont pas figées. Elles ont un cycle de vie, se développent et vieillissent. Et il faut les gérer. Après leur création, il est nécessaire de stocker les données, d’y accéder en vue d’analyses informatiques et dans le cadre d’activités collaboratives, de les archiver pour des utilisations ultérieures et de les protéger à chaque étape pour éviter toute perte. Ces tâches se compliquent à mesure que le volume des données scientifiques dont disposent les organismes de recherche augmente.

Les performances élevées sont importantes dans le domaine de la recherche. Une solution de calcul puissante (plus rapide) permet d’analyser plus de données en moins de temps, ce qui peut accélérer le processus de recherche. L’infrastructure de stockage joue un rôle éminent dans les performances des environnements informatiques. L’obtention de performances élevées suppose une infrastructure capable de prendre en charge des opérations d’E/S rapides sans goulets d’étranglement. Lorsque la capacité de stockage atteint plusieurs pétaoctets, gérer des accès hautes performances constitue un défi.

La collaboration est un autre facteur essentiel au sein des organismes de recherche. Grâce à la technologie, des centaines de scientifiques peuvent travailler ensemble sur des projets et partager l’information. Cependant, tous les scientifiques n’utilisent pas la même plate-forme d’exploitation cliente ou ne résident pas au même endroit. Certains travaillent avec Linux et d’autres avec Mac OS ou Microsoft Windows. Certains peuvent se connecter à l’infrastructure de stockage via un réseau SAN et d’autres via un LAN ou un NAS. Partager l’accès aux fichiers de données et aux résultats de recherches nécessite une infrastructure de stockage prenant en charge l’accès simultané aux fichiers de données mais aussi plusieurs méthodes d’accès et des systèmes d’exploitation différents.

Et lorsque la capacité de stockage augmente, les procédures de sauvegarde des données doivent évoluer. Lorsque des pétaoctets de données sont utilisés, le volume devient tel que les opérations de sauvegarde de données traditionnelles ne sont plus en mesure de le gérer. Il reste cependant nécessaire de protéger les données contre toute défaillance du matériel. L’installation de baies de stockage secondaire en vue de répliquer les données est l’un des moyens permettant de sauvegarder les données, mais cette solution peut se révéler onéreuse.

Plusieurs niveaux de stockage

Pour créer une infrastructure de stockage capable de gérer l’augmentation du volume des données scientifiques, les organismes de recherche doivent trouver des moyens d’associer plusieurs technologies de stockage. Le stockage hautes performances, sur disque à mémoire flash ou sur disque ultrarapide par exemple, est nécessaire pour répondre aux exigences du calcul intensif (HPC). Néanmoins, un seul sous-ensemble de données est actif à la fois et doit résider sur un média hautes performances. Stocker des fichiers inactifs sur ce média est à la fois inutile et coûteux.

Il est préférable de mettre en œuvre plusieurs niveaux de stockage. Dans un environnement multiniveau, la capacité de stockage totale est répartie entre divers types de médias. Un disque haute performance ou un stockage flash est réservé aux fichiers actifs, c’est-à- dire à ceux qui font partie d’un projet actif ou qui sont actuellement soumis à une analyse computationnelle. La capacité restante est fournie par des bandes ou par le stockage dans le Cloud.

Certains organismes de recherche ont mis en œuvre cette approche avec succès. GWDG, par exemple, utilise une infrastructure de stockage multiniveau. L’organisation gère 7 pétaoctets de données dont 2,5 seulement résident sur disque, les 4,5 pétaoctets restants étant stockés sur bande. Le stockage sur bande étant plus économique que le stockage sur disque, cette approche permet à GWDG de fournir les performances et la capacité nécessaires à un coût moindre.

Gestion des données dans un environnement de stockage multiniveau

Le processus de gestion des données est la clé pour tirer le meilleur parti d’un environnement de stockage multiniveau. Comme cela a été écrit plus haut, les données ont un cycle de vie. En moyenne, 70 à 80% des fichiers de données stockés ne sont pas utilisés activement. Lorsque des fichiers stockés sur un média onéreux vieillissent ou deviennent inactifs, ils devraient être transférés et archivés sur un média plus économique.

Dans un environnement de stockage complexe, la gestion des données peut s’avérer laborieuse. Heureusement, il est possible d’automatiser les processus de gestion des données. Des règles peuvent être définies au niveau des fichiers et le transfert des fichiers vers une archive peut s’effectuer de manière transparente pour le chercheur. Celui-ci ne constate aucune différence concernant les fichiers gérés de cette façon, où qu’ils soient stockés. Résultat : les fichiers restent visibles et accessibles pour ceux qui en ont besoin.

La gestion des données dans un environnement de stockage multiniveau contribue aussi à garantir leur protection. Des règles peuvent être définies pour optimiser les niveaux, de sorte que les ensembles de données critiques soient copiés sur une autre baie de disques et un autre média comme la bande ou le Cloud. Les données sont ainsi protégées et préservées, de façon à pouvoir être restaurées rapidement en cas de panne matérielle, et le processus de recherche n’est pas affecté.

S’assurer que les données restent exploitables dans un environnement en forte croissance

Des données scientifiques plus nombreuses aident les chercheurs à faire de nouvelles découvertes. Mais à mesure que le volume des données générées et la taille des environnements de stockage augmentent, les organismes de recherche doivent s’intéresser à la façon dont ils gèrent la croissance de leur infrastructure de stockage, de façon à offrir les meilleures performances possibles, au coût le plus bas.

Suivez MtoM Mag sur le Web

 

Newsletter

Inscrivez-vous a la newsletter d'MtoM Mag pour recevoir, régulièrement, des nouvelles du site par courrier électronique.

Email: