pivotal_HDPivotal, la nouvelle filiale « Big Data » d’EMC a récemment dévoilé une nouvelle distribution Hadoop, baptisée Pivotal HD. Le logiciel est le fruit des travaux de GreenPlum (l’une des composantes de Pivotal) et est une évolution de la distribution GreenPlum HD lancée en 2011 à EMC World.

Pour en savoir plus sur cette distribution, SolutionITPME a pu s’entretenir avec Saravana Krishnamurthy, en charge du Product Management d’Hadoop chez Pivotal. Comme l’explique Krishnamurthy, l’objectif de la société avec Pivotal HD a été d’élargir de façon significative le périmètre fonctionnel d’Hadoop pour en faire une plate-forme de gestion de données bien plus généraliste que les plates-formes Hadoop traditionnelles. L’innovation clé de la société est l’inclusion dans sa distribution d’un nouveau moteur de données baptisé Hawk et qui n’est en fait ni plus ni moins qu’un portage de la base de données massivement parallèle de GreenPlum au-dessus du système de fichier en cluster HDFS. Avec Hawq, l’ambition de Pivotal est de fournir la capacité d’analyser des données quelle que soit leur nature, leur structure ou leur provenance.

Un nouveau moteur de données dérivé de la base de données massivement parallèle GreenPlum DB

Pour créer Pivotal HD, la société s’est appuyée sur un socle de code open-source dérivé d’Apache Hadoop 2.x. Cette branche du code a été choisie car elle représente le futur d’Hadoop, mais aussi parce qu’elle apporte de multiples améliorations au système de gestion de fichiers en cluster HDFS nécessaire au bon fonctionnement de Hawq. Pivotal HD apporte tous les services habituels d’une distribution Hadoop notamment le support de Mapreduce, Hive, Pig… mais aussi Hawk – dont le code reste propriétaire.

Hawq est une vraie base de données SQL au dessus d’HDFS. Cela veut dire qu’elle peut stocker toute forme de données structurées. Le moteur de requête d’Hawq peut attaquer toute forme de données stockées dans Hawq, mais aussi accéder des données non structurées stockées directement au-dessus de HDFS via un mécanisme baptisé GPXF (GreenPlum Extension Framework). Dans la pratique, Hawq supporte ce que GreenPlum appelle des « external tables », qui permettent de décrire la structure de fichiers textes, de logs… et donc de les interroger via son mécanisme de query SQL. Hawq peut aussi interagir avec les données stockées dans Hbase.

L’architecture de Hawq permet à Pivotal de proposer un mécanisme unifié pour l’interrogation de données structurées et non structurées

L’architecture de Hawq permet à Pivotal de proposer un mécanisme unifié pour l’interrogation de données structurées et non structurées

Comme l’explique Krishnamurthy, Hawq s’appuie sur le savoir faire MPP de GreenPlum et permet de stocker des données en format colonne ou ligne. La base de données permet un partitionnement transparent des données afin de segmenter les données pour optimiser certaines requêtes. La base de données embarque aussi toute l’expertise de GreenPlum en matière d’optimisation des requêtes. Cela permet à Pivotal HD d’afficher des performances très supérieures à des mécanismes comme Hive ou Impala (d’une dizaine à plusieurs centaines de fois supérieures selon les tâches selon Pivotal).

Une plate-forme Hadoop qui vise à permettre la réutilisation des compétences analytiques existantes des entreprises

Le tout est compatible avec les standards SQL92 et SQL99 ainsi qu’avec les extensions OLAP de SQL 2003 (au passage la base maintient une compatibilité totale avec PostgreSQL 8.2). Selon Krishnamurthy, cette compatibilité permet de fournir aux utilisateurs de sa distribution Hadoop le meilleur des deux mondes. Les utilisateurs formés à Mapreduce et aux outils traditionnels d’Hadoop peuvent utiliser ces mécanismes pour analyser les données non structurées stockées sur HDFS. Les utilisateurs d’entreprise traditionnels peuvent quant à eux réutiliser leurs compétences SQL et les compétences déjà développées sur la base de données GreenPlum HD. Un support complet d’ ODBC et de JDBC permet aussi de s’interfacer avec les outils BI existant comme Tableau ou QlikView.

Dans la pratique, Hawk est une option payante au-dessus de la distribution Pivotal HD Entreprise. Cela veut dire qu’il est tout à fait possible de déployer un cluster Hadoop de 500 nœuds dont une centaine seulement pour Hawq. Un des bénéfices est que Pivotal HD peut être utilisé pour consolider des clusters Hadoop existants tout en « réservant » certains nœuds pour le stockage et l’analyse de données structurées ou semi-structurées.

Aller au-delà des limites des bases de données MPP traditionnelles

Interrogé sur les limites d’Hawq,  Krishnamurthy indique que la base a déjà été testée sur des configurations en centaines de nœuds et que l’éditeur travaille actuellement à sa validation sur son cluster de test comprenant un millier de nœuds. « On a fait le choix de porter notre base sur HDFS car on pense que l’on peut aller au-delà des limites des bases MPP traditionnelles » explique le responsable produit. Hawq devrait en fait être très flexible. Il lui sera possible de fonctionner sur de « petits » clusters associés à un stockage « centralisé » comme celui proposé par les clusters Isilon avec leur couche HDFS. Il sera aussi possible de déployer la technologie sur de grands clusters Hadoop. Côté architecture, Krishnamurthy indique que la technologie fonctionnera avec des liens Gigabit mais qu’elle donnera des résultats d’autant plus élevés que la technologie de connectivité sous-jacente sera performante. Cela veut sans doute dire que pour donner son meilleur, Hawq nécessitera une connectivité 10 Gigabit ou Infiniband entre les nœuds.

Une distribution Hadoop complète, pour concurrencer les plates-formes d’HortonWorks, Cloudera et MapR

Comme tous les développeurs de distributions Hadoop, Pivotal package l’ensemble des composants Hadoop open-source les plus utilisés, dont MapReduce, Pig, Hive et Mahout. L’éditeur y ajoute aussi un certain nombre d’outils d’administration et de déploiement dont son outil Command Center pour la gestion et la supervision HDFS, MapReduce et Hawq et ICM (Installation/Configuration/Management), pour l’administration du cluster Hadoop lui-même.

Pivotal a aussi inclus les composants Spring Hadoop pour l’intégration d’Hadoop avec le Framework Java Spring – SpringSource, comme GreenPlum, a été fondu par EMC et VMware dans Pivotal. Notons enfin que Pivotal HD embarque les composants nécessaires à son déploiement sur une architecture virtualisée avec VMware (composants développés dans le cadre du projet de virtualisation d’Hadoop, connu sous le nom de code Serengeti).

Pivotal HD est disponible depuis le début du printemps de mars. Selon Krishnamurthy, les licences de Hawq sont vendues à un prix inférieur à celui de la base de données GreenPlum.