Logo Big Data EMC

Cloud et Big Data sont les deux grands mots-clés du moment

Sommé par un journaliste de fournir une définition du concept lors du dernier EMC World, le CEO d’EMC avait tenté d’expliquer le concept par l’exemple : « Pour une compagnie pétrolière, le Big Data c’est la masse de données sismiques accumulées lors de recherche de nouveaux gisements de pétrole. Pour un hôpital, ce serait plutôt l’imposant volume de données provenant des multiples scanners et instruments d’imagerie à résonance magnétique. Pour un studio de cinéma, ce serait plutôt les données générées lors du rendu d’un film 3D. L’important est que dans tous les cas on parle de volumes qui dépassent dès le départ le pétaoctet et qui  progressent à vitesse exponentielle vers le multi-pétaoctets. Dès lors la question qui se pose est de savoir comment bien stocker ces données, comment les gérer et les exploiter de façon optimale. »

Pour McKinsey Global Institute, le terme de  « Big data » décrit des jeux de données dont la taille ou la nature ne permet pas une capture, un stockage, une gestion et un traitement par des outils de gestion de bases de données classiques. Le cabinet ne définit pour autant pas de limite de taille pour le concept de Big Data et note que le volume de données considéré comme étant « Big Data » peut varier par secteur d’activité (d’une douzaine de To à plusieurs Po). Une chose est certaine, précise toutefois, McKinsey, les données de type « Big Data » progressent à un rythme soutenu.

Un univers numérique en croissance exponentielle

Pour Jean-Yves Pronier, le directeur marketing d’EMC, « les dernières études montrent que le volume des informations en circulation, de toutes sortes et de toutes natures, fait plus que doubler tous les deux ans ». Il cite notamment une étude menée conjointement par EMC et IDC, qui indique que le volume des données numériques créées en 2011 atteindra le chiffre colossal de 1 800 milliards de gigaoctets, soit 1,8 Zettaoctet. Et ce n’est qu’un début puisque ce chiffre sera multiplié par 44 d’ici 2020, du fait de la numérisation croissante de notre univers, de l’explosion des communications machines à machines, et de la prolifération des capteurs et autres tags ( tels que tags RFID et NFC, capteurs GPS)…

McKinsey estime ainsi que le nombre de machines (automobiles, compteurs électriques, distributeurs, équipements médicaux nomades…) connectés à l’Internet devrait être multiplié par 4,5 entre 2010 et 2015. Autant d’équipements qui ne manqueront pas d’apporter leur contribution au déluge de données déjà généré par les applications existantes et leurs utilisateurs. 90 % de ces données devraient être de type non structuré.

Une nouvelle génération de « Data Scientists »

Face à ce déluge, une nouvelle génération de professionnels est requise, capables de dégager une vision claire, utile et ordonnée de cet incroyable volume d’informations mis de toutes parts à notre disposition. «‘Data hominem‘, ainsi auraient pu être appelés ces spécialistes qui savent collecter, analyser les données pour ensuite les appliquer de manière utile et productive au service de l’entreprise »,  explique Jean-Yves Pronier. Aux États-Unis, on les a surnommés « Data Scientists », explique le directeur marketing d’EMC, tout en soulignant préférer l’appellation française d’« experts en science des données ».  Des experts qui devraient être très demandés : pour les seuls États-Unis, McKinsey estime ainsi qu’il manquera entre 140 000 et 190 000 salariés disposant d’une expertise avancée en analyse de données et environ 1,5 millions de gestionnaires de données en 2018.

Leur place première est évidemment dans l’entreprise mais aussi dans les services publics, deux secteurs où le traitement de ces grands volumes de données pourrait générer de considérables gains de productivités, mais aussi contribuer à l’amélioration des services rendus aux clients ou citoyens. Car ces spécialistes, en extrayant la substantifique moelle des vastes quantités de données à leur disposition, peuvent détecter les tendances qui feront l’avenir, identifier de nouveaux mécanismes de fraudes, anticiper des problèmes à venir, autant d’informations précieuses pour les responsables métiers.

S’il devrait être passionnant, le métier d’expert en science des données n’en sera pas moins périlleux, souligne toutefois Jean-Yves Pronier. Car les données sont partout. L’expert devra donc être capable de passer au crible un très large éventail d’informations, provenants de sources multiples : entrepôts de données d’entreprises, entrepôts de données publiques de type « open data », informations issues des réseaux sociaux, sites innombrables du web, études économiques, Blogs, Forums, archives numériques, etc., avant d’être en mesure de sélectionner celles qui seront directement utiles à l’entreprise. L’expert en science des données devrait agir en véritable « alchimiste de l’information », reliant entre eux les points différents pour faire apparaître les tendances, et offrir une réelle visibilité dans cet amoncellement de minerais brut qui va soudain se transformer en information précieuse, conduisant l’entreprise à prendre des décisions d’une pertinence inconnue jusqu’alors. »

Logo Hadoop

A nouveaux métiers, nouveaux outils

Ces experts vont bien entendu avoir besoin d’outils et de puissance de calcul adaptés. Selon IDC, le nombre de serveurs devrait être multiplié par 10  d’ici à 2020, car qui dit grand volume de données dit besoin de performances pour traiter ces données (et nul doute que les questions seront de plus en plus sophistiquées donc la puissance requise de plus en plus élevée). Au delà de la puissance pure, ce sont aussi les outils de stockage, de gestion et de traitement des données qui vont évoluer. Partout les tendances sont similaires et inspirées des technologies développées dans le monde du calcul intensif.

Pour le stockage, on voit ainsi se généraliser les systèmes distribués tels que celui d’Isilon (pour le NAS) ou tels qu’EMC Atmos (pour le stockage à grande échelle d’objets). Pour le traitement de données, les systèmes massivement parallèles prennent peu à peu l’ascendant sur les bases de données traditionnelles. L’engouement pour des systèmes tels que Hadoop / Mapreduce, ou tels que GreenPlum ne se dément pas.

Nouvelles techniques de visualisation

De nouvelles techniques de visualisation émergent pour rendre intelligibles de grands volumes de données. Ici le halo autour de la planète symbolise l’intensité  du trafic internet entre la ville sélectionnée et New-York

On voit aussi se développer les alternatives aux bases SQL à l’instar de Cassandra, MongoDB ou Membase. Le poids du Big Data influence aussi les langages de développement. On peut ainsi constater le succès du framework node.js (framework javascript serveur) pour les applications de stream processing (traitement d’événements à très haut débit), du fait de ses caractéristiques non bloquantes, mais aussi celui d’Apache Pig pour l’analyse de grands jeux de données.

Enfin, le Big Data a une influence sur les techniques de visualisation, les experts en sciences de données devant pouvoir rendre parlantes de façon visuelle les données qu’ils manipulent. Bref, c’est une nouvelle dimension de l’informatique qui est en train de se construire sous nos yeux et c’est un peu cette nouvelle vague que l’on désigne aujourd’hui par le terme « Big Data ».