Présentation de HDInsight et de la pile de technologies HadoopWhat is Azure HDInsight and the Hadoop technology stack

Cet article présente Apache Hadoop sur Azure HDInsight.This article provides an introduction to Apache Hadoop on Azure HDInsight. Azure HDInsight est un service d’analyse entièrement géré, complet et open source pour les entreprises.Azure HDInsight is a fully managed, full-spectrum, open-source analytics service for enterprises. Vous pouvez utiliser les infrastructures open source telles que Hadoop, Spark, Hive, LLAP, Kafka, Storm, R et bien plus encore.You can use open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more.

Qu’est-ce que HDInsight et la pile de technologies Hadoop ?What is HDInsight and the Hadoop technology stack?

Apache Hadoop était l’infrastructure open source d’origine de traitement et d’analyse distribués des jeux de données volumineuses sur des clusters.Apache Hadoop was the original open-source framework for distributed processing and analysis of big data sets on clusters. La pile de technologies Hadoop inclut des logiciels et utilitaires liés, notamment Apache Hive, HBase, Spark, Kafka et bien d’autres encore.The Hadoop technology stack includes related software and utilities, including Apache Hive, HBase, Spark, Kafka, and many others.

Azure HDInsight est une distribution par cloud des composants Hadoop à partir de Hortonworks Data Platform (HDP).Azure HDInsight is a cloud distribution of the Hadoop components from the Hortonworks Data Platform (HDP). Azure HDInsight rend facile, rapide et économique le traitement de volumes importants de données.Azure HDInsight makes it easy, fast, and cost-effective to process massive amounts of data. Vous pouvez utiliser les infrastructures open source les plus populaires, telles que Hadoop, Spark, Hive, LLAP, Kafka, Storm, R et bien plus encore.You can use the most popular open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, R, and more. Avec ces infrastructures, vous pouvez activer un large éventail de scénarios, tels que l’extraction, la transformation et le chargement (ETL) ; l’entreposage de données ; l’apprentissage automatique ; et IoT.With these frameworks, you can enable a broad range of scenarios such as extract, transform, and load (ETL), data warehousing, machine learning, and IoT.

Pour voir les piles de composants de technologie Hadoop disponibles sur HDInsight, consultez Composants et versions disponibles avec HDInsight.To see available Hadoop technology stack components on HDInsight, see Components and versions available with HDInsight. Pour plus d’informations sur Hadoop dans HDInsight, consultez la rubrique Page de fonctionnalités Azure pour HDInsight.To read more about Hadoop in HDInsight, see the Azure features page for HDInsight.

Que sont les données volumineuses ?What is big data?

Les données volumineuses sont collectées dans des volumes toujours plus importants, à des vitesses élevées et pour une variété de formats plus grande qu’auparavant.Big data is collected in escalating volumes, at higher velocities, and in a greater variety of formats than ever before. Elles peuvent être historiques (c'est-à-dire stockées) ou en temps réel (c'est-à-dire diffusées à partir de la source).It can be historical (meaning stored) or real time (meaning streamed from the source). Consultez Scénarios d’utilisation d’ HDInsight pour en savoir plus sur les cas d’usage courants pour les Big Data.See Scenarios for using HDInsight to learn about the most common use cases for big data.

Pourquoi utiliser Hadoop sur HDInsight ?Why should I use Hadoop on HDInsight?

Cette section répertorie les fonctionnalités d’Azure HDInsight.This section lists the capabilities of Azure HDInsight.

FonctionnalitéCapability DescriptionDescription
Cloud natifCloud native Azure HDInsight vous permet de créer des clusters optimisés pour Hadoop,  Spark,  Interactive query (LLAP),  Kafka,  Storm,  HBase, et  ML Services sur Azure.Azure HDInsight enables you to create optimized clusters for Hadoop, Spark, Interactive query (LLAP), Kafka, Storm, HBase, and ML Services on Azure. HDInsight fournit également un contrat SLA de bout en bout sur toutes vos charges de travail de production.HDInsight also provides an end-to-end SLA on all your production workloads.
Économique et évolutifLow-cost and scalable HDInsight vous permet de monter ou de descendre en puissance  les charges de travail.HDInsight enables you to scale workloads up or down. Vous pouvez réduire les coûts en créant des clusters à la demande et payer uniquement ce que vous utilisez. You can reduce costs by creating clusters on demand and paying only for what you use. Vous pouvez également créer des pipelines de données pour faire fonctionner vos travaux.You can also build data pipelines to operationalize your jobs. Le stockage et le calcul découplés améliorent les performances et la flexibilité.Decoupled compute and storage provide better performance and flexibility.
Sécurité et conformitéSecure and compliant HDInsight vous permet de protéger les ressources de données de votre entreprise à l’aide du réseau virtuel Azure, du chiffrementet de l’intégration avec Azure Active Directory.HDInsight enables you to protect your enterprise data assets with Azure Virtual Network, encryption, and integration with Azure Active Directory. HDInsight répond également aux normes de conformité du gouvernement et du secteur les plus populaires.HDInsight also meets the most popular industry and government compliance standards.
SurveillanceMonitoring Azure HDInsight s’intègre à Azure Log Analytics pour fournir une interface unique permettant de gérer l’ensemble des clusters.Azure HDInsight integrates with Azure Log Analytics to provide a single interface with which you can monitor all your clusters.
Disponibilité généraleGlobal availability HDInsight est disponible dans plus de 25  régions , soit plus que tout autre offre d’analytique Big Data.HDInsight is available in more regions than any other big data analytics offering. Azure HDInsight est également disponible dans Azure Government, en Chine, et en Allemagne, ce qui vous permet de répondre aux besoins de votre entreprise dans les principaux domaines souverains.Azure HDInsight is also available in Azure Government, China, and Germany, which allows you to meet your enterprise needs in key sovereign areas.
ProductivitéProductivity Azure HDInsight vous permet d’utiliser des outils de productivité enrichis pour Hadoop et Spark avec les environnements de développement de votre choix.Azure HDInsight enables you to use rich productive tools for Hadoop and Spark with your preferred development environments. Parmi ces environnements de développement figurent Visual Studio, VSCode, Eclipse et IntelliJ pour la prise en charge de Scala, Python, R, Java et .NET.These development environments include Visual Studio, VSCode, Eclipse, and IntelliJ for Scala, Python, R, Java, and .NET support. Les scientifiques des données peuvent également collaborer à l’aide de blocs-notes populaires, tels que Jupyter et Zeppelin.Data scientists can also collaborate using popular notebooks such as Jupyter and Zeppelin.
ExtensibilitéExtensibility Vous pouvez étendre les clusters HDInsight avec des composants installés (Hue, Presto, etc.) à l’aide d’actions de script, par l’ajout de nœuds de périphérie, ou l’intégration à d’autres applications certifiées Big data.You can extend the HDInsight clusters with installed components (Hue, Presto, and so on) by using script actions, by adding edge nodes, or by integrating with other big data certified applications. HDInsight permet une intégration transparente aux solutions Big Data les plus populaires à l’aide d’un déploiement en un clic.HDInsight enables seamless integration with the most popular big data solutions with a one-click deployment.

Scénarios d’utilisation de HDInsightScenarios for using HDInsight

Azure HDInsight peut être utilisé pour divers scénarios lors d’un traitement de données Big data.Azure HDInsight can be used for a variety of scenarios in big data processing. Il peut s’agir de données historiques (déjà collectées et stockées) ou de données en temps réel (transmises en continu directement à partir de la source).It can be historical data (data that's already collected and stored) or real-time data (data that's directly streamed from the source). Les scénarios pour le traitement de ces données peuvent être classés dans les catégories suivantes :The scenarios for processing such data can be summarized in the following categories:

Traitement par lots (ETL)Batch processing (ETL)

Extraction, transformation et chargement (ETL) est un processus au cours duquel les données structurées ou non sont extraites à partir de sources de données hétérogènes.Extract, transform, and load (ETL) is a process where unstructured or structured data is extracted from heterogeneous data sources. Elles sont ensuite converties dans un format structuré et chargées dans un magasin de données.It's then transformed into a structured format and loaded into a data store. Les données converties peuvent être utilisées pour la science des données ou l’entreposage de données.You can use the transformed data for data science or data warehousing.

Entrepôt de donnéesData warehousing

HDInsight permet d’exécuter des requêtes interactives sur des pétaoctets de données structurées ou non dans n’importe quel format.You can use HDInsight to perform interactive queries at petabyte scales over structured or unstructured data in any format. Vous pouvez également créer des modèles en les connectant à des outils BI.You can also build models connecting them to BI tools. Pour plus d’informations, consultez ce témoignage client.For more information, read this customer story.

Architecture HDInsight : entreposage de donnéesHDInsight architecture: Data warehousing

Internet des objets (IoT)Internet of Things (IoT)

Vous pouvez utiliser HDInsight pour traiter des données de diffusion en continu reçues en temps réel depuis divers appareils.You can use HDInsight to process streaming data that's received in real time from a variety of devices. Pour plus d’informations, lire ce billet de blog Azure annonçant la version préliminaire publique de Apache Kafka sur HDInsight avec Azure Managed Disks.For more information, read this blog post from Azure that announces the public preview of Apache Kafka on HDInsight with Azure Managed disks.

Architecture HDInsight : Internet des objetsHDInsight architecture: Internet of Things

Science des donnéesData science

Vous pouvez utiliser HDInsight pour créer des applications qui extraient des informations critiques à partir des données.You can use HDInsight to build applications that extract critical insights from data. Vous pouvez également utiliser Azure Machine Learning pour prédire les tendances futures de votre activité.You can also use Azure Machine Learning on top of that to predict future trends for your business. Pour plus d’informations, consultez ce témoignage client.For more information, read this customer story.

Architecture HDInsight : science des donnéesHDInsight architecture: Data science

HybrideHybrid

HDInsight permet d’étendre votre infrastructure Big Data locale existante sur Azure pour exploiter les fonctionnalités d’analyse avancée du cloud.You can use HDInsight to extend your existing on-premises big data infrastructure to Azure to leverage the advanced analytics capabilities of the cloud.

Architecture HDInsight : hybrideHDInsight architecture: Hybrid

Types de cluster dans HDInsightCluster types in HDInsight

HDInsight comprend des types de cluster spécifiques et des fonctionnalités de personnalisation de cluster, comme l’ajout de composants, d’utilitaires et de langages.HDInsight includes specific cluster types and cluster customization capabilities, such as the capability to add components, utilities, and languages. HDInsight offre les types de clusters suivants :HDInsight offers the following cluster types:

Composants open source dans HDInsightOpen-source components in HDInsight

Azure HDInsight permet de créer des clusters avec des infrastructures open source, telles que Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase et R. Ces clusters sont fournis par défaut avec d’autres composants open source inclus sur le cluster, tels que Ambari, Avro, Hive, HCatalog, Mahout, MapReduce, YARN, Phoenix, Pig, Sqoop, Tez, Oozie, ZooKeeper.Azure HDInsight enables you to create clusters with open-source frameworks such as Hadoop, Spark, Hive, LLAP, Kafka, Storm, HBase, and R. These clusters, by default, come with other open-source components that are included on the cluster such as Ambari, Avro, Hive, HCatalog, Mahout, MapReduce, YARN, Phoenix, Pig, Sqoop, Tez, Oozie, ZooKeeper.

Langages de programmation dans HDInsightProgramming languages in HDInsight

Les clusters HDInsight (dont Spark, HBase, Kafka, Hadoop et d’autres) prennent en charge de nombreux langages de programmation.HDInsight clusters, including Spark, HBase, Kafka, Hadoop, and others, support many programming languages. Certains langages de programmation ne sont pas installés par défaut.Some programming languages aren't installed by default. Pour les bibliothèques, modules ou packages non installés par défaut, utilisez une action de script pour installer le composant.For libraries, modules, or packages that are not installed by default, use a script action to install the component.

Langage de programmationProgramming language InformationInformation
Prise en charge des langages de programmation par défautDefault programming language support Par défaut, HDInsight prend en charge :By default, HDInsight clusters support:
  • JavaJava
  • PythonPython
Vous pouvez installer des langages supplémentaires à l’aide d’actions de script.You can install additional languages by using script actions.
Langages de machines virtuelles Java (JVM)Java virtual machine (JVM) languages De nombreux langages autres que Java peuvent s’exécuter sur une machine virtuelle Java (JVM).Many languages other than Java can run on a Java virtual machine (JVM). Toutefois, si vous exécutez certains de ces langages, vous devrez peut-être installer des composants supplémentaires sur le cluster.However, if you run some of these languages, you might have to install additional components on the cluster. Les langages JVM suivants sont pris en charge sur les clusters HDInsight :The following JVM-based languages are supported on HDInsight clusters:
  • ClojureClojure
  • Jython (Python pour Java)Jython (Python for Java)
  • ScalaScala
Langages spécifiques à HadoopHadoop-specific languages Les clusters HDInsight prennent en charge les langages suivants, spécifiques à la pile de technologies Hadoop :HDInsight clusters support the following languages that are specific to the Hadoop technology stack:
  • Pig Latin pour les travaux PigPig Latin for Pig jobs
  • HiveQL pour les travaux Hive et SparkSQLHiveQL for Hive jobs and SparkSQL

Outils de gestion pour HDInsightDevelopment tools for HDInsight

Vous pouvez utiliser les outils de développement HDInsight, y compris IntelliJ, Eclipse, Visual Studio Code et Visual Studio, pour créer et soumettre une tâche et une requête de données HDInsight avec une intégration transparente avec Azure.You can use HDInsight development tools, including IntelliJ, Eclipse, Visual Studio Code, and Visual Studio, to author and submit HDInsight data query and job with seamless integration with Azure.

Le décisionnel sur HDInsightBusiness intelligence on HDInsight

Les outils décisionnels courants permettent de récupérer des données intégrées à HDInsight, de les analyser et de générer des rapports à leur sujet via le complément Power Query ou le Pilote ODBC Microsoft Hive :Familiar business intelligence (BI) tools retrieve, analyze, and report data that is integrated with HDInsight by using either the Power Query add-in or the Microsoft Hive ODBC Driver:

Étapes suivantesNext steps

Dans cet article, vous avez découvert Azure HDInsight et les types de clusters Hadoop et autres qu’il fournit sur Azure.In this article, you learned what is Azure HDInsight and how it provides Hadoop and other cluster types on Azure. Passez à l’article suivant pour apprendre à créer un cluster Apache Hadoop dans HDInsight.Proceed to the next article to learn how to create an Apache Hadoop cluster in HDInsight.