Tirer parti d’un cluster Hadoop depuis SSIS

Dans le premier billet de ce nouveau blog, nous évoquions l'interaction entre Apache Hadoop, MapReduce et SQL Server Integration Services (SSIS), l’outil d’ETL (Extract, Transform, Load) de SQL Server.

Nous souhaitons à ce propos mentionner dans ce billet la publication récente sur le site MSDN du livre blanc Leveraging a Hadoop cluster from SQL Server Integration Services (SSIS) sur lequel nous avons travaillé, Benjamin Guinebertière, Rémi Olivier et moi-même.

image

Le livre blanc vise à donner les clés et éléments nécessaires aux personnes désirant utiliser SSIS avec Apache Hadoop et ce, en particulier dans le contexte de Windows Azure HDInsight Service.

Apache Hadoop est un Framework Open Source alliant un modèle de programmation simple et un traitement distribué de grands ensembles de données au travers de cluster(s) d’ordinateurs. Particulièrement adapté pour les Big Data, il est prévu, au travers de son modèle de programmation MapReduce et de son système de fichier HDFS (Hadoop Distributed File System), de s’adapter à la charge de travail en permettant de passer simplement d’un à des milliers de serveurs fournissant pour chacun d’eux du stockage et du temps de traitement.

Windows Azure HDInsight Service est l’implémentation d’Hadoop dans le Cloud Microsoft Windows Azure. Ce service représente le stade le plus avancé disponible au public de l’évolution d’Hadoop en environnement Microsoft. Accessible à l’adresse https://www.hadooponazure.com/, il possède nombre d’avantages.

Il est ainsi possible de gérer simplement son cluster Hadoop, mais aussi de requêter directement le système de fichier HDFS, de lancer des tâches Hadoop et Hive et d’utiliser de la BI (Business Intelligence) en ligne grâce à la console JavaScript.

Outre ces avantages fonctionnels, l’un des bénéfices clé de cette solution dans le Cloud est son utilisation. Le Cloud Computing procure en effet l’avantage d’offrir des ressources extensibles au besoin donc en théorie illimitées. Couplé à un paiement à l’utilisation, Windows Azure HDInsight Service est une solution d’intérêt pour les organisations qui ne possèdent pas les capacités nécessaires au traitement de leurs données ; l’un des bénéfices apportés par Hadoop étant de pouvoir utiliser au maximum les différents nœuds disponibles dans le cluster afin de minimiser le temps total d’exécution.

Le livre blanc en profite pour proposer une vue d’ensemble des possibilités offertes entre l’écosystème Apache Hadoop (PIG, HIVE, SQOOP, etc.) et SSIS.

Au final, ce document constitue un premier recueil d’informations et de nouvelles implémentations autour de Windows Azure, d’Apache Hadoop, de SSIS et de la BI, traitant également de l’automatisation, du transfert de données et des performances associées à SSIS et Hadoop en différents environnements. Il précise les informations essentielles quant à l’utilisation de SSIS avec Hadoop et permet à l’écosystème de SQL Server d’entrer dans l’écosystème d’Hadoop en offrant de nouvelles possibilités.

J’en profite pour souligner que le livre blanc est fourni avec un ensemble de codes source « exemple » (merci au passage à Rémi Olivier !).

Ces codes « exemple » sont disponibles sur le portail MSDN Developer Code Samples. Il s’agit plus précisément des exemples suivants :

Au-delà du contexte de mise en œuvre propre à l’environnement SSIS, il convient de noter que les bibliothèques développées dans le cadre de ces exemples peuvent également servir à des développements applicatifs tiers du fait du découplage des bibliothèques avec SQL Server en tant que tel.

Bonne lecture !

imageimage