Dans la soirée du 17 mai 2013, un incident impactant l’un de ses deux datacenters a contraint le Conseil Général du Bas-Rhin à arrêter en urgence la production informatique localisée dans ce datacenter. Un arrêt qui n’a toutefois pas eu d’impact sur le fonctionnement des applications critiques du département, protégées par le système VPLEX d’EMC.

Comme l’explique Pierre Dolis, en charge des architectures systèmes et stockage au CG 67,  ce sinistre n’a guère laissé le choix aux exploitants du datacenter : « Suite à de multiples courts-circuits, les disjoncteurs électriques dans la salle ont commencé à se déclencher, ne laissant d’autre choix qu’un arrêt d’urgence de la salle ».

Ce sinistre n’a toutefois eu aucun impact sur les productions critiques du département explique Pierre Dolis. En 2010, le CG67 avait en effet investi dans une infrastructure de PCA (Plan de Continuité d’Activité) basée sur la technologie VPLEX d’EMC. Un choix qui s’est avéré payant puisque les productions informatiques impactées par le sinistre ont basculé automatiquement sur le second datacenter sans aucun impact pour les utilisateurs.

En savoir plus sur le PCA du CG67

Le Conseil Général du Bas-Rhin fournit à ses administrés des services de proximité qui concernent la vie quotidienne de tous les habitants : social et solidarité, culture, sports, collèges, routes, actions pour l’habitat, économie, tourisme, environnement local. La collectivité a aussi la particularité d’offrir des prestations aux communes et aux collectivités locales plus modestes.

Tous ces services ont rapidement entraîné une explosion des besoins informatiques avec plus de 300 machines virtuelles réparties sur une vingtaine de serveurs sous VMware vSphere 5. Soucieux de se protéger contre un sinistre, le CG67 a lancé un appel d’offres pour mettre en place une infrastructure de PCA (Plan de Continuité d’Activité) en 2010. « Nous avions une grosse crainte d’un sinistre majeur dans notre salle informatique. L’objectif était de pouvoir continuer à offrir nos services aux citoyens en cas de panne majeure de notre Datacenter » explique Pierre Dolis, Architecte Systèmes et Stockage au Conseil Général du Bas-Rhin.

Alors que la production était à l’origine dans un unique Datacenter, elle a été répartie dans deux salles machines distantes de 10 km et reliées par fibre optique. Dans chaque salle, le CG67 a installé une baie de stockage SAN EMC Clariion. La technologie VPLEX d’EMC a été retenue pour assurer la synchronisation des données entre les deux datacenters. Le périmètre du PCA couvre environ la moitié des machines virtuelles (celles hébergeant les applications jugées les plus critiques), ainsi que les services de partage de fichiers. C’est cette infrastructure couverte par le PCA qui a parfaitement joué son rôle lors du récent sinistre.

Une bascule transparente des applications vers le second datacenter

« Suite au sinistre, la baie de stockage dans le datacenter affecté, soudain privée d’alimentation électrique s’est mise automatiquement en sécurité » explique Pierre Dolis. « Dans l’urgence, nous avons pu effectuer un arrêt ordonné des serveurs de la salle et lancer la migration automatisée de nos machines virtuelles vers le second site, ce qui a pris environ 30 mn pendant que l’on arrêtait les autres serveurs. Cela a permis d’éviter la corruption éventuelle de données situées sur la baie primaire ». Notamment, la partie cluster Microsoft, qui s’appuie sur VPLEX, a basculé sans souci. Les services de partage de fichiers, eux-aussi protégés par VPLEX, ont également basculé de façon transparente et sans souci. « Le sinistre s’est produit à 21 h et à 22h30, l’ensemble des applications dans le périmètre du PCA avait fini de basculer  sur le second datacenter et fonctionnait de façon normale. Les applications non prioritaires étaient, quant à elles, arrêtées, comme prévu par le PCA. Certaines ont été ensuite redémarrées au cas par cas, après la réunion d’une cellule de crise, afin de répondre à la demande des utilisateurs » indique Pierre Dolis. L’architecte se félicite du soutien apporté par EMC : « Dans l’heure suivant le déclenchement du sinistre, nous avons été contactés par le support VPLEX suite aux alarmes remontées par les équipements au support EMC afin de nous proposer une assistance dans le cadre du PCA. Ces équipes de support ont continué à nous suivre jusqu’à la clôture du ticket d’incident » indique Pierre Dolis.

« VPLEX a parfaitement rempli son rôle »

« VPLEX a parfaitement rempli son rôle et nous a permis d’assurer la continuité du stockage de façon transparente fournissant le support requis à la bascule automatique des applications » ajoute l’architecte du CG 67. «  Avec VPLEX, les données écrites par les applications sur chacune des baies de nos deux datacenters sont automatiquement dupliquées sur l’autre baie. Nos serveurs sont zonés de telle sorte qu’ils ont accès aux contrôleurs VPLEX situés dans chaque salle ; ainsi lorsque la production a été stoppée dans la première salle, les applications ont automatiquement pu basculer sur la seconde salle et retrouver leurs données. La bascule a été transparente pour les applications protégées. Jamais les VM ne se sont rendu compte du sinistre. On aurait certes aimé ne pas avoir de sinistre, mais les équipements ont fonctionné comme prévu » se félicite Pierre Dolis.

Suite à ce sinistre, le CG67 n’a eu d’autre choix que de fonctionner en « mode dégradé » pendant 6 jours. Le jeudi 23 mai, lors de la remise en service de la salle impactée, VPLEX a redétecté l’apparition de la seconde baie de stockage et a commencé à resynchroniser les données entre les deux datacenters. Cette resynchronisation, qui permet de remettre en cohérence les données entre les deux sites, a pris environ deux jours via le lien optique à 4 Gbit disponible entre les deux salles (le temps nécessaire pour resynchroniser 25 To de données tout en assurant la continuité de la production). « Durant ces opérations de réplication, nous n’avons constaté aucun problème de performance sur notre production » explique Pierre Dolis.

Suite au sinistre, le CG67 a tiré quelques leçons de la mise en œuvre réussie de son PCA. Afin d’assurer une resynchronisation plus rapide dans le cas d’un autre incident, le CG67 réfléchit ainsi à améliorer le débit des liens ISL entre les deux datacenters pour les porter à 8 Gbit/s. Des réflexions sont aussi en cours pour élargir le périmètre du PCA à certaines applications qui n’étaient pas couvertes par le plan initial et qui se sont en fait avérées être requises par certains utilisateurs.