Réduire les besoins en capacité disque et en bande passante réseau, économiser plus d’électricité, réduire le temps de sauvegarde des serveurs comme des postes clients… Ces bénéfices de la déduplication de données ne sont que les principaux avantages mis en avant par les utilisateurs de la technologie. Une technologie dont l’usage se démocratise progressivement à la plupart des systèmes de stockage.

Les principales approches de déduplication de données

Une appliance de déduplication à la cible DataDomain

Une appliance de déduplication à la cible DataDomain

Selon les fournisseurs, l’appellation déduplication recouvre plusieurs réalités. La version la plus basique de la technologie est maîtrisée depuis des années, puisqu’il ne s’agit ni plus ni moins que de la compression, qui permet d’éliminer certaines redondances de données afin de réduire l’empreinte de stockage d’un fichier. Au-delà de cette implémentation « historique », on a vu apparaître plus récemment deux autres formes de réduction de données, tout d’abord la déduplication au niveau fichier. Avec cette dernière, tout fichier détecté comme étant un double parfait d’un autre fichier est tout simplement supprimé et remplacé par un « lien ». Cette technologie basique est notamment mise en œuvre dans les messageries électroniques sous le nom de Single Instance Storage (un élément dupliqué à une ou plusieurs reprises n’est stocké qu’une fois).

Mais la version de la technologie de déduplication qui intéresse aujourd’hui le plus les entreprises est la déduplication au niveau du bloc (ou tout du moins au niveau d’un segment de fichiers). Comme avec le SIS, l’idée est de localiser des « doublons » mais cette fois-ci à l’échelle de petits segments de fichiers, dans le but de maximiser les chances de trouver des doublons. Selon les constructeurs, l’analyse des blocs se fait sur la base de segments de données de taille fixe ou de taille variable. Dans ce dernier cas, le déplacement de la fenêtre d’analyse de l’algorithme de déduplication maximise les chances de trouver des doublons et donc de réduire la taille des données.
Pour identifier les données dupliquées, la plupart des technologies découpent les données en segments et opèrent un calcul d’empreinte (ou de « hash ») sur ces segments grâce à un algorithme cryptographique. Ce calcul produit une valeur numérique réputée unique, qui est ensuite comparée à la valeur numérique des autres morceaux déjà analysés. En cas de redondance d’empreinte, le système conclut à un doublon et élimine les données dupliquées (d’où le terme déduplication) tout en conservant un journal de cette opération. Ainsi, on gagne de l’espace tout en assurant que lors de la restauration ou de la relecture, le système saura recréer le fichier original, à partir des blocs dédupliqués.

Déduplication à la source ou déduplication à la cible ?

On distingue aujourd’hui deux types de déduplication. Celle qui s’exécute à la source et celle qui s’exécute à la cible. La première s’opère sur le serveur à sauvegarder. Lors d’une opération de backup, l’agent installé sur le serveur déduplique les données au fil de l’eau et ne transmet au serveur de sauvegarde que des données déjà dédupliquées. L’avantage principal est que le flux de données sur le réseau s’en trouve considérablement réduit (de 95 % pour un ratio de 10:1), ce qui rend la technologie particulièrement utile dans les environnements très consolidés (notamment dans les environnements virtualisés), dans le cas de serveurs en agence qui sauvegardent en central ou du backup de postes clients. La déduplication à la source a notamment été démocratisée par un pionnier comme Avamar, aujourd’hui dans le giron d’EMC.

À l’inverse, dans le cas de la déduplication à la cible, le processus de sauvegarde reste plus traditionnel. Le serveur à sauvegarder envoie ses données au serveur de sauvegarde, qui les transmet à l’appliance de déduplication, qui se charge de réduire au fil de l’eau. L’avantage principal de cette approche est que les machines à sauvegarder ne sont pas sollicitées au niveau processeur, toutes les opérations s’exécutant sur l’appliance. En revanche, les capacités de déduplication de l’appliance sont limitées à la puissance de traitement de ses processeurs. Il est à noter que la plupart des appliances de déduplication à la cible offrent à la fois un mode de stockage (ou de sauvegarde) en mode NAS via des protocoles ouverts tels que CIFS ou NFS, ainsi qu’un mode VTL. Dans ce dernier, l’appliance apparaît comme une librairie de bande virtuelle pour les logiciels de sauvegarde et s’insère donc de façon transparente dans des processus de sauvegarde existant, à ceci près que la capacité utilisable est considérablement accrue par l’usage de la déduplication.

Quelle réduction de données pour quel taux de déduplication

Le taux de déduplication s'exprime en ratio par rapport à l'original. Un ratio de 10 pour 1 correspond ainsi à une réduction de 90% par rapport au volume de données initial

Des gains d’espace significatifs

Dans tous les cas, les technologies modernes de déduplication produisent des résultats surprenants en matière de réduction des données. Si la plupart des utilisateurs n’atteignent jamais les ratios invoqués par certains fournisseurs (de type 200 ou 300:1) – qui ne sont possibles que dans certains scénarios très particuliers -, il est commun d’obtenir des ratios de type 10:1 à 20:1. Ce qui signifie une réduction pouvant atteindre 90 à 95 % par rapport au volume de données initial. Dans la pratique cela veut dire qu’une appliance de déduplication avec 40 To de capacité disque utile pourra en fait sauvegarder 400 à 800 To de données.
Mais la déduplication présente d’autres bénéfices. À la source, par exemple, elle permet une réduction massive des fenêtres de sauvegarde et un allégement considérable du trafic réseau. Ces deux caractéristiques permettent d’envisager des scénarios de protection des agences, sites ou magasins distants jusqu’alors impossibles, le tout en assurant une bien meilleure sécurité des données. Il est ainsi facile de comprendre que les chances de restaurer des données dans de bonnes conditions, avec un système de sauvegarde centralisé opéré par des professionnels, sont bien plus élevées qu’avec un système distribué s’appuyant sur des lecteurs de bandes souvent incertains distribués en agences… Plus généralement le fait d’avoir des données déjà dédupliquées simplifie aussi les opérations de réplication entre des appliances de sauvegardes réparties sur plusieurs sites.

La déduplication du stockage primaire, futur eldorado ?

Pour l’instant, la plupart des constructeurs n’ont appliqué la technologie de déduplication qu’à leurs solutions de sauvegarde. Mais chez certains constructeurs, comme EMC, on ne cache pas qu’un des usages futurs de la technologie sera sans doute la déduplication dans les systèmes de stockage primaires, afin d’enrayer la croissance exponentielle des volumes stockés sur les baies de stockage.
Loi de Moore aidant, il va de toute façon bien falloir trouver quelque chose à faire pour occuper les nouveaux processeurs multicœur d’AMD et Intel qui motorisent les baies de stockage. Et dans bien des têtes, la déduplication des données primaires est l’une des fonctions qui pourrait au mieux exploiter les deux technologies, surtout si elle venait à être couplée à des fonctions de classification automatique de données. Cela tombe bien, ces dernières se banalisent aussi dans les baies de stockage…

 

A lire aussi sur SolutionITPME :

• Protégez vos serveurs et les données de vos salariés avec Avamar

En savoir plus sur le web :

Le site déduplication d’EMC