Premier organisme européen (deuxième mondial) de recherche spécialisée dans les domaines de l’agriculture, de l’environnement et de la santé alimentaire, l’INRA mène des travaux sur les mondes végétal et animal, l’agriculture, l’élevage, la forêt, la préservation et la valorisation de l’environnement mais aussi la santé alimentaire dans ses 18 centres régionaux et 150 sites expérimentaux.

L’établissement de Toulouse Midi-Pyrénées qui regroupe plus de 850 chercheurs, ingénieurs et techniciens, produit 10 % des publications et 12 % des brevets de l’INRA. Collaborant avec le tissu académique régional (CNRS, l’INSERM, universités du Capitole et Paul Sabatier, école vétérinaire, écoles d’ingénieurs), l’INRA est membre du pôle de compétence Toulouse Agri Campus et du pôle de compétitivité Agrimip Sud-Ouest Innovation. l’INRA de Toulouse pilote une plateforme nationale de bio-informatique dédiée aux recherches en sciences du vivant.

Un défi industriel

Le Groupement d’Intérêt Scientifique Genotoul est un réseau de plateformes en sciences du vivant créé par la Génopole qui fédère des établissements publics et collectivités territoriales de Midi-Pyrénées concernés par la recherche et l’innovation. Au sein de ce groupement, la plateforme bio-informatique met à disposition de la communauté scientifique des ressources de traitement pour exploiter à grande échelle les données produites par les programmes de recherche dans le domaine de la biologie. Cette plateforme informatique, financée par le contrat de plan État région (CPER 2006-2013), par le GIS IBiSA et par l’INRA est associée à d’autres structures de même type dans le cadre de l’Institut Français de Bio-informatique (IFB).

Le projet en bref

logo_inria

Secteur

 

  • Recherche agronomique de pointe

 

L’entreprise

    Établissement public scientifique et technologique, l’INRA produit des innovations, conçoit des savoir-faire, diffuse ses connaissances et joue un rôle d’expert auprès des acteurs gouvernementaux et économiques.

Challenge

  • Mise en œuvre d’une solution de stockage capacitive sur la plateforme de bio-informatique Genotoul du Génopôle Midi-Pyrénées.
  • Optimisation de l’exploitation et de l’interprétation de données génomiques.

 

Solutions

  • 2 clusters Isilon équipés chacun de 5 nœuds (3 nœuds Isilon IQ 72NL et 2 nœuds Isilon NL400) fonctionnant en réplication sur 2 sites distants

 

Résultats

  • Une augmentation des capacités de stockage tout en conservant un fort potentiel de développement dans un domaine où la croissance des données n’est pas maîtrisable.

En quelques années, elle est devenue un centre de calcul spécialisé accueillant plus de 400 utilisateurs et pouvant traiter d’importants volumes de données produites par les technologies de séquençage à très haut débit de 2e et bientôt 3e génération. Grâce à des moyens de stockage conséquents, les bio informaticiens récupèrent de très gros fichiers fournis directement par les séquenceurs puis les « travaillent » grâce à un puissant cluster de calculateurs, avant de les mettre à disposition des utilisateurs biologistes par le biais d’interfaces web. Outre l’analyse de séquences issues du haut débit (nettoyage des séquences primaires, assemblage, alignement, prédiction des gènes, …), la plate-forme met à disposition des outils permettant l’étude approfondie de molécules d’acide ribonucléique (ARN) et des environnements de visualisation et d’interrogation accessibles via des interfaces web.

Le stockage : un rôle essentiel dans la plate-forme

Le séquençage à très haut débit a remis en cause l’ensemble des stratégies d’analyse des génomes. Au milieu des années 2000, une plateforme de séquençage très haut débit (type Génome Analyzer II d’Illumina) générait plus de 80 Go de données par opération. En 2013, la génération suivante (type HiSeq 2000 d’Illumina), produit plus de 600 Go par « run ». Chaque opération de séquençage nécessite plusieurs heures d’analyse sur un cluster de calcul HPC avant interprétation, tandis qu’une opération d’assemblage de fragments d’ARN pour reconstituer une molécule complète peut nécessiter pour des génomes eucaryotes près d’un mois de calcul.

Dès lors, le système de stockage joue un rôle stratégique pour la plate-forme puisqu’il doit d’abord recueillir les données brutes issues des outils de séquençage, puis héberger les données issues des analyses. La croissance exponentielle des besoins de stockage a saturé le NAS acquis en 2010 par la plateforme bio-informatique du Genotoul, au point qu’il était nécessaire de rechercher une nouvelle solution dotée d’un système de fichier hautement capacitif et pouvant évoluer jusqu’à 1 Pétaoctet. Le cahier des charges stipulait une utilisation optimale de l’espace disque, une forte tolérance aux pannes, l’utilisation des protocoles NFS, CIFS, FTP et HTTP, la gestion authentifiée des accès sous OpenLdap et des fonctions avancées de réplication, d’historisation et de gestion des quotas.

« Notre choix initial de 2012 en faveur de 3 nœuds EMC Isilon IQ72NL a été confirmé l’année suivante avec l’acquisition de 2 nœuds d’extension NL400, ce qui nous rassure sur les possibilités d’évolution de nos capacités de stockage dans une discipline où les prévisions sont difficiles ».

Didier Laborie, Ingénieur Système à l’INRA Toulouse en charge de la plate-forme bio-informatique au Genotoul.

Une nouvelle architecture basée sur des nœuds Isilon

L’INRA a finalement retenu la solution de stockage NAS en cluster d’Isilon pour répondre à des besoins en plein développement. La montée en puissance du système de stockage s’est faite en 2 temps, après une période de test de plusieurs semaines à Toulouse. En 2012, la plate-forme de bio-informatique s’est enrichie de 2 clusters, en réplication sur 2 sites, constitués chacun de 3 nœuds EMC Isilon IQ 72NL. Ce premier investissement a été complété l’année suivante par 2 nœuds d’extension Isilon NL400 sur chacun des sites. Actuellement, chaque cluster totalise donc 5 nœuds, 36 disques SATA-2 au format 3,5’’ enregistrant 2 To de données en protection N+2:1, ce qui laisse la possibilité éventuelle de perdre 2 disques sur un même nœud ou même un nœud entier sans provoquer de perte d’information.

Les 2 clusters tournent sous la dernière version de l’OS OneFS (OneFS v7.0.1, nom de code « Mavericks ») et disposent chacun de raccordements réseau 10 GbE et de licences Insight IQ (outil de reporting : consommation espaces disques et performances), SmartConnect Advanced (équilibrage de charge), SmartQuota (définition et gestion des capacités dévolues aux utilisateurs), SnapshotIQ (création automatique de « snapshot »), et SyncIQ (réplication asynchrone des données).

Une intégration transparente à l’existant

L’intégration des clusters EMC Isilon dans la plateforme bio-informatique a été aisée, de même que l’est leur administration. L’évolution de l’espace disque – primordiale pour l’utilisateur – est prévue pour atteindre plusieurs Peta octets sur le même système de fichiers et sans dégradation de la performance qui peut même être augmentée par l’adjonction de nouveaux nœuds.

L’installation des 2 clusters Isilon dans le centre bio-informatique de l’INRA Toulouse, au Genotoul, a permis de faire d’une pierre deux coups : La nouvelle plate-forme résout à la fois le problème de la capacité disponible de stockage des données de séquençage et celui de l’évolution de ce dispositif en fonction de la croissance à venir de sa « production ».