Pivotal, la filiale Big Data d’EMC, poursuit ses travaux pour concrétiser les promesses du Big Data de toutes les entreprises. La firme a récemment lancé Pivotal HD 2.0, la première plate-forme combinant la technologie de framework analytique open source Hadoop avec sa base de données massivement parallèle (issue de GreenPlum) et la technologie de base de données SQL in-memory GemFire XD.

Avec cette intégration, l’objectif de Pivotal est de coupler les capacités innovantes d’Hadoop avec des capacités d’ingestion, de traitement et d’analyse en temps réel afin de répondre à l’ensemble des besoins analytique des entreprises, et ce quelle que soit leur taille.

Des services de base de données et de requête en temps réel

Pivotal GemFire XD n’est autre qu’une nouvelle itération de la couche de base de données distribuée in-memory Pivotal SQLFire optimisée pour fonctionner au-dessus de la couche de stockage HDFS d’Hadoop – HDFS, le système de fichier en cluster d’Hadoop est le fondement du framework analytique libre. La technologie est capable d’ingérer des flux de données massifs en temps réel (comme ceux provenant de réseaux de capteurs, de compteurs intelligents, de flux web…) via des protocoles standards comme ODBC ou JDBC et de les analyser en temps réel. Elle stocke les données ingérées en mémoire, avant de les faire persister sur la couche de stockage disque HDFS, rendant ainsi possible la mise en œuvre de requêtes en temps réel sur la plate-forme open source. GemFire XD permet aussi de faire converger des usages de base de données transactionnels et analytiques sur une plate-forme unique.

Architecture et composants de Pivotal HD 2

Un autre bénéfice de Pivotal HD 2.0 est sa librairie d’algorithmes et d’outils prêts à l’emploi destinés à faciliter la mise en œuvre de processus analytiques sophistiqués sur Hadoop. Des algorithmes pour l’optimisation réseau, le traitement des données de capteurs, l’analyse biogénétique ou l’optimisation de chaînes logistiques font partie du portefeuille intégré au logiciel. De même l’intégration de la technologie Graphlab OpenMPI  permet de simplifier l’analyse de données à base de graphes et la mise en œuvre de processus de « machine learning ». GraphLab peut être utilisé pour la mise en œuvre d’algorithmes de ciblage publicitaire et de recommandation, pour l’optimisation des processus industriels, pour le traitement en langage naturel, l’analyse de protéines et plus généralement pour tout type d’algorithme d’apprentissage informatique. En plus de GraphLab, Pivotal HD 2 inclut MadLib pour l’analyse prédictive des données relationnelles contenues dans Hawq.

Pivotal a aussi étendu les capacités du moteur de requête SQL en temps réel HAWQ, introduit avec la version massivement parallèle de la base de données de GreenPlum sur le socle Hadoop. Hawq permet désormais d’utiliser des fonctions en langages R, Python et Java.

L’ensemble de ces nouvelles capacités permet de tirer parti du « lac de données » stocké sur le file system Hadoop et vise à fournir une plate-forme de données uniques pour l’ensemble des besoins analytiques d’une entreprise.

Un modèle de licence révolutionnaire

Avec son nouveau modèle d’abonnement illimité, la Pivotal Big Data Suite permet aux entreprises de déployer et d’utiliser l’ensemble des composantes de la suite Pivotal HD à leur guise. La licence est facturée par cœur processeur et non pas au volume de données comme chez certains concurrents. Elle laisse libre les clients de déployer les composants qui l’intéressent et d’en changer à leur guise au gré de leurs besoins. Par exemple une entreprise pourra commencer à utiliser Pivotal HD pour stocker des données dans Hadoop, puis progressivement dédier un plus grand nombre de nœuds aux outils analytiques de la suite. Cela permet aussi un droit à l’erreur dans le dimensionnement et la répartition des différents composants sur une infrastructure donnée.

La Big Data Suite de Pivotal inclut la base de données analytique GreenPlum, Pivotal GemFire, Pivotal SQLFire, Pivotal HD, Hawq et Pivotal GemFire XD.

Les composants de la Big Data Suite de Pivotal

Les composants de la Big Data Suite de Pivotal