Pocket


Selon une récente étude IDC1, 1,8 zettaoctets de données auront été générés en 2011 et les entreprises doivent stocker et gérer 80 % de cette masse. Il leur faudra en 2020 dix fois plus de serveurs qu’aujourd’hui. Pour les directeurs informatiques, selon une étude Gartner2, ces quantités colossales de données qu’on appelle les Big Data constituent le principal défi à relever en matière d’infrastructure matérielle.

Or ces données sont de plus en plus diversifiées. Elles proviennent d’ordinateurs, de téléphones mobiles, de capteurs, de caméras, de terminaux de paiement et ne sont pas homogènes. Il est donc indispensable d’envisager une nouvelle approche aussi bien pour les gérer que pour améliorer notre capacité collective à les utiliser.

A propos de l’auteur

Jean-Michel Giordanengo est à la tête d’EMC France depuis le printemps 2010. Chez EMC depuis 2001, ce diplômé de l’Esden/Esicad, titulaire d’un MBA en gestion des entreprises et d’un DESS Responsable Formation et Ressources Humaines de l’Université d’Aix en Provence, était Directeur Général Adjoint des Ventes de la société depuis 2009. Il avait aussi occupé précédemment les fonctions de Directeur Commercial Secteur Public et Grandes Entreprises et de responsable des grands comptes Banque et Télécoms.

Du chercheur d’or à l’alchimiste

Sous la masse des données résident des informations précieuses. Il y a des pépites à trouver. C’est le rôle du data mining. Mais les vraies promesses des Big Data résident dans une tâche encore plus complexe : le rapprochement de données différentes pour les transmuter en une ressource nouvelle. C’est le rôle des experts en science des données. Scott Yara, co-fondateur de Greenplum, voit en eux des « alchimistes de l’information » qui « relient les points pour révéler de grandes tendances d’une manière inédite, ouvrant ainsi des perspectives nouvelles à partir de montagnes de uns et de zéros »3. Ces montagnes sont d’origine diverse : mises à jour de statuts sur les sites de réseaux sociaux, journaux de serveurs web, archives de transactions en ligne…

Les responsabilités de l’expert en science des données incluent le data mining, le conditionnement des données, la sélection des analyses, l’analyse continue des données, l’utilisation du ciblage comportemental, le développement de méthodes d’analyse, la recherche de méthodes permettant d’améliorer la qualité, la gestion, l’analyse, la modélisation, la fourniture et la création des données.. Des outils d’analyse sont déjà à sa disposition. Des logiciels de veille stratégique permettent d’analyser des historiques afin d’améliorer des produits. Des outils plus prédictifs, comme SAS, peuvent servir par exemple à prévenir des fraudes ou à prévoir les actions de la concurrence. Confronté à des gigaoctets ou des téraoctets de données, le professionnel fera aussi appel à des bases de données analytiques de nouvelle génération comme Greenplum, capables de traiter de gros volumes en un minimum de temps.

Des oiseaux rares multicompétents

Les outils ne sont rien sans leurs utilisateurs. La première qualité indispensable à tout expert en science des données est la curiosité, assure Roger Magoulas, responsable des études de marché chez O’Reilly Media4. Bien entendu, elle ne dispense pas de posséder de solides compétences en informatique et en mathématiques (statistiques, probabilités, méthodes numériques, etc.). L’expert doit aussi être attentif aux problèmes juridiques éventuellement soulevés par l’utilisation des données. La présentation des résultats de ses travaux aux différents publics internes suppose en outre un talent de communicant, une grande rigueur dans l’interprétation des données et une parfaite connaissance du métier de l’entreprise.

Une telle somme de compétences techniques et humaines fait de l’expert en science des données une sorte de Léonard de Vinci contemporain. « Il est rare que les étudiants qui sortent de notre cursus aient acquis l’expérience nécessaire dans tous ces domaines », reconnaît Joe Hellerstein, professeur d’informatique à l’université de Berkeley4. Pourtant, les offres d’emploi se multiplient, preuve que les entreprises espèrent vraiment trouver des personnes possédant des compétences aussi diversifiées.

 

Notes:

1 « Extracting Value from Chaos », join 2011.

2 « Gartner Survey Shows Data Growth as the Largest Data Center Infrastructure Challenge », novembre 2010.

3 Communiqué « EMC to Host World’s First Data Scientist Summit », 18 avril 2011.

4 Data Scientist Summit, mai 2011. 

Pocket