Utilisation d’Azure Data Lake Storage Gen2 pour le Big DataUsing Azure Data Lake Storage Gen2 for big data requirements

Il existe quatre étapes principales dans traitement des données Big Data :There are four key stages in big data processing:

  • Réception de grandes quantités de données dans un magasin de données, en temps réel ou par lotsIngesting large amounts of data into a data store, at real-time or in batches
  • Traitement des donnéesProcessing the data
  • Téléchargement des donnéesDownloading the data
  • Visualisation des donnéesVisualizing the data

Cet article présente les options et outils pour chaque phase de traitement.This article highlights the options and tools for each processing phase.

Pour obtenir la liste complète des services Azure que vous pouvez utiliser avec Azure Data Lake Storage Gen2, consultez Intégrer Azure Data Lake Storage avec les services Azure.For a complete list of Azure services that you can use with Azure Data Lake Storage Gen2, see Integrate Azure Data Lake Storage with Azure services

Ingérer les données dans Data Lake Storage Gen2Ingest the data into Data Lake Storage Gen2

Cette section présente les différentes sources de données et les différentes manières d’ingérer ces données dans un compte Data Lake Storage Gen2.This section highlights the different sources of data and the different ways in which that data can be ingested into a Data Lake Storage Gen2 account.

Ingérer des données dans Data Lake Storage Gen2Ingest data into Data Lake Storage Gen2

Données ad hocAd hoc data

Ceci représente les petits jeux de données qui sont utilisés pour créer un prototype d’une application de Big Data.This represents smaller data sets that are used for prototyping a big data application. Il existe différentes façons de recevoir des données ad hoc en fonction de la source de données.There are different ways of ingesting ad hoc data depending on the source of the data.

Voici une liste d'outils que vous pouvez utiliser pour ingérer des données ad hoc.Here's a list of tools that you can use to ingest ad hoc data.

source de donnéesData Source Réception avecIngest it using
Ordinateur localLocal computer Azure PowerShellAzure PowerShell

Azure CLIAzure CLI

Explorateur StockageStorage Explorer

Outil AzCopyAzCopy tool
Azure Storage BlobAzure Storage Blob Azure Data Factory.Azure Data Factory

Outil AzCopyAzCopy tool

DistCp en cours d’exécution sur un cluster HDInsightDistCp running on HDInsight cluster

Flux de donnéesStreamed data

Ceci représente les données qui peuvent être générées par diverses sources, telles que des applications, des appareils, des capteurs, etc. Ces données peuvent être ingérées dans Data Lake Storage Gen2 par des outils divers.This represents data that can be generated by various sources such as applications, devices, sensors, etc. This data can be ingested into Data Lake Storage Gen2 by a variety of tools. En général, ces outils capturent et traitent les données sur la base de l’événement en temps réel, puis ils écrivent les événements par lots dans Data Lake Storage Gen2 afin qu’ils puissent être traités.These tools will usually capture and process the data on an event-by-event basis in real-time, and then write the events in batches into Data Lake Storage Gen2 so that they can be further processed.

Voici une liste d'outils que vous pouvez utiliser pour ingérer des données diffusées en continu.Here's a list of tools that you can use to ingest streamed data.

OutilTool AssistanceGuidance
Azure Stream AnalyticsAzure Stream Analytics Démarrage rapide : Créer un travail Stream Analytics à l’aide du portail AzureQuickstart: Create a Stream Analytics job by using the Azure portal
Sortie vers Azure Data Lake Gen2Egress to Azure Data Lake Gen2
Azure HDInsight StormAzure HDInsight Storm Écrire dans Apache Hadoop HDFS à partir d'Apache Storm sur HDInsightWrite to Apache Hadoop HDFS from Apache Storm on HDInsight

Données relationnellesRelational data

Les bases de données relationnelles peuvent également être utilisées comme sources des données.You can also source data from relational databases. Sur une période donnée, les bases de données relationnelles collectent de grandes quantités de données qui peuvent fournir des informations clés si elles sont traitées via un pipeline de Big Data.Over a period of time, relational databases collect huge amounts of data which can provide key insights if processed through a big data pipeline. Vous pouvez utiliser les outils suivants pour déplacer ces données vers Data Lake Storage Gen2.You can use the following tools to move such data into Data Lake Storage Gen2.

Voici une liste d'outils que vous pouvez utiliser pour ingérer des données relationnelles.Here's a list of tools that you can use to ingest relational data.

OutilTool AssistanceGuidance
Azure Data FactoryAzure Data Factory Activité Copy dans Azure Data FactoryCopy Activity in Azure Data Factory

Données de journal de serveur web (téléchargement à l’aide d’applications personnalisées)Web server log data (upload using custom applications)

Ce type de jeu de données est spécifiquement indiqué, car l’analyse des données de journal de serveur web constitue un cas d’usage courant pour les applications de Big Data et nécessite le chargement d’importants volumes de fichiers journaux sur Data Lake Storage Gen2.This type of dataset is specifically called out because analysis of web server log data is a common use case for big data applications and requires large volumes of log files to be uploaded to Data Lake Storage Gen2. Vous pouvez utiliser les outils suivants pour écrire vos propres scripts ou applications pour télécharger ces données.You can use any of the following tools to write your own scripts or applications to upload such data.

Voici une liste d'outils que vous pouvez utiliser pour ingérer des données de journal de serveur web.Here's a list of tools that you can use to ingest Web server log data.

OutilTool AssistanceGuidance
Azure Data FactoryAzure Data Factory Activité Copy dans Azure Data FactoryCopy Activity in Azure Data Factory
Azure CLIAzure CLI Azure CLIAzure CLI
Azure PowerShellAzure PowerShell Azure PowerShellAzure PowerShell

Pour télécharger des données de journal de serveur web, et également pour télécharger d’autres types de données (par exemple, les données relatives aux sentiments sociaux), il est préférable d’écrire vos propres scripts/applications personnalisés, car cela vous donne la possibilité d’inclure votre composant de téléchargement de données dans le cadre de votre application de Big Data plus étendue.For uploading web server log data, and also for uploading other kinds of data (e.g. social sentiments data), it is a good approach to write your own custom scripts/applications because it gives you the flexibility to include your data uploading component as part of your larger big data application. Dans certains cas, ce code peut prendre la forme d’un script ou d’un utilitaire de ligne de commande simple.In some cases this code may take the form of a script or simple command line utility. Dans d’autres cas, le code peut être utilisé pour intégrer le traitement de Big Data dans une solution ou une application métier.In other cases, the code may be used to integrate big data processing into a business application or solution.

Données associées aux clusters Azure HDInsightData associated with Azure HDInsight clusters

La plupart des types de clusters HDInsight (Hadoop, HBase, Storm) prennent en charge Data Lake Storage Gen2 comme référentiel de stockage des données.Most HDInsight cluster types (Hadoop, HBase, Storm) support Data Lake Storage Gen2 as a data storage repository. Les clusters HDInsight accèdent aux données à partir des objets blob d’Azure Storage (WASB).HDInsight clusters access data from Azure Storage Blobs (WASB). Pour optimiser les performances, vous pouvez copier les données à partir de WASB sur un compte Data Lake Storage Gen2 associé au cluster.For better performance, you can copy the data from WASB into a Data Lake Storage Gen2 account associated with the cluster. Vous pouvez utiliser les outils suivants pour copier les données.You can use the following tools to copy the data.

Voici une liste d'outils que vous pouvez utiliser pour ingérer des données associées à des clusters HDInsight.Here's a list of tools that you can use to ingest data associated with HDInsight clusters.

OutilTool AssistanceGuidance
Apache DistCpApache DistCp Utiliser DistCp pour copier des données entre Azure Storage Blob et Azure Data Lake Storage Gen2Use DistCp to copy data between Azure Storage Blobs and Azure Data Lake Storage Gen2
Outil AzCopyAzCopy tool Transférer des données avec AzCopyTransfer data with the AzCopy
Azure Data FactoryAzure Data Factory Copier des données vers ou depuis Azure Data Lake Storage Gen2 à l'aide d'Azure Data FactoryCopy data to or from Azure Data Lake Storage Gen2 by using Azure Data Factory

Données stockées localement ou dans des clusters IaaS HadoopData stored in on-premises or IaaS Hadoop clusters

De grandes quantités de données peuvent être stockées dans des clusters Hadoop existants, localement sur les ordinateurs à l’aide de HDFS.Large amounts of data may be stored in existing Hadoop clusters, locally on machines using HDFS. Les clusters Hadoop peuvent être inclus dans un déploiement local ou au sein d’un cluster IaaS sur Azure.The Hadoop clusters may be in an on-premises deployment or may be within an IaaS cluster on Azure. Il peut être nécessaire de copier ces données dans Azure Data Lake Storage Gen2 afin de bénéficier d’un accès unique ou périodique.There could be requirements to copy such data to Azure Data Lake Storage Gen2 for a one-off approach or in a recurring fashion. Différentes options vous permettent d’y parvenir.There are various options that you can use to achieve this. Voici une liste de ces options et des compromis correspondants.Below is a list of alternatives and the associated trade-offs.

ApprocheApproach DétailsDetails AvantagesAdvantages ConsidérationsConsiderations
Utiliser Azure Data Factory (ADF) pour copier des données directement à partir de clusters Hadoop dans Azure Data Lake Storage Gen2Use Azure Data Factory (ADF) to copy data directly from Hadoop clusters to Azure Data Lake Storage Gen2 ADF prend en charge HDFS comme source de donnéesADF supports HDFS as a data source ADF offre une prise en charge immédiate de HDFS ainsi qu’une gestion et une surveillance de bout en bout de premier ordreADF provides out-of-the-box support for HDFS and first class end-to-end management and monitoring Nécessite que la passerelle de gestion des données soit déployée localement ou dans le cluster IaaSRequires Data Management Gateway to be deployed on-premises or in the IaaS cluster
Utilisez Distcp pour copier les données de Hadoop dans Azure Storage.Use Distcp to copy data from Hadoop to Azure Storage. Copiez ensuite les fichiers de Stockage Azure vers Data Lake Storage Gen2 à l’aide du mécanisme approprié.Then copy data from Azure Storage to Data Lake Storage Gen2 using appropriate mechanism. Vous pouvez copier les données de Stockage Azure vers Data Lake Storage Gen2 en utilisant :You can copy data from Azure Storage to Data Lake Storage Gen2 using: Vous pouvez utiliser des outils open source.You can use open-source tools. Processus en plusieurs étapes qui implique différentes technologiesMulti-step process that involves multiple technologies

Jeux de données très volumineuxReally large datasets

Pour télécharger des jeux de données qui comptent plusieurs téraoctets, l’utilisation des méthodes décrites ci-dessus peut parfois être lente et coûteuse.For uploading datasets that range in several terabytes, using the methods described above can sometimes be slow and costly. Dans ce cas, vous pouvez utiliser Azure ExpressRoute.In such cases, you can use Azure ExpressRoute.

Azure ExpressRoute vous permet de créer des connexions privées entre les infrastructures et les centres de données Azure dans votre environnement local.Azure ExpressRoute lets you create private connections between Azure data centers and infrastructure on your premises. Ceci constitue une option fiable pour le transfert de grandes quantités de données.This provides a reliable option for transferring large amounts of data. Pour en savoir plus, consultez la Documentation Azure ExpressRoute.To learn more, see Azure ExpressRoute documentation.

Traiter les donnéesProcess the data

Une fois que les données sont disponibles dans Data Lake Storage Gen2, vous pouvez exécuter une analyse sur ces données à l’aide des applications de Big Data prises en charge.Once the data is available in Data Lake Storage Gen2 you can run analysis on that data using the supported big data applications.

Analyser des données dans Data Lake Storage Gen2Analyze data in Data Lake Storage Gen2

Voici une liste d'outils que vous pouvez utiliser pour exécuter des travaux d'analyse sur les données stockées dans Data Lake Storage Gen2.Here's a list of tools that you can use to run data analysis jobs on data that is stored in Data Lake Storage Gen2.

OutilTool AssistanceGuidance
Azure HDInsightAzure HDInsight Utiliser Azure Data Lake Storage Gen2 avec des clusters Azure HDInsightUse Azure Data Lake Storage Gen2 with Azure HDInsight clusters
Azure DatabricksAzure Databricks Azure Data Lake Storage Gen2Azure Data Lake Storage Gen2

Démarrage rapide : Analyser des données dans Azure Data Lake Storage Gen2 à l'aide d'Azure DatabricksQuickstart: Analyze data in Azure Data Lake Storage Gen2 by using Azure Databricks

Tutoriel : Extraire, transformer et charger des données à l'aide d'Azure DatabricksTutorial: Extract, transform, and load data by using Azure Databricks

Visualiser les donnéesVisualize the data

Utilisez le connecteur Power BI pour créer des représentations visuelles des données stockées dans Data Lake Storage Gen2.Use the Power BI connector to create visual representations of data stored in Data Lake Storage Gen2. Consultez Analyser des données dans Azure Data Lake Storage Gen2 à l’aide de Power BI.See Analyze data in Azure Data Lake Storage Gen2 by using Power BI.

Télécharger les donnéesDownload the data

Vous pouvez également être amené à télécharger ou à déplacer les données à partir d’Azure Data Lake Storage Gen2 dans certains cas, tels que :You might also want to download or move data from Azure Data Lake Storage Gen2 for scenarios such as:

  • Déplacer des données vers d’autres référentiels pour créer une interface avec vos pipelines de traitement des données existantes.Move data to other repositories to interface with your existing data processing pipelines. Par exemple, vous pourriez vouloir déplacer des données de Data Lake Storage Gen2 vers Azure SQL Database ou une instance SQL Server.For example, you might want to move data from Data Lake Storage Gen2 to Azure SQL Database or a SQL Server instance.

  • Télécharger des données sur votre ordinateur local pour le traitement dans des environnements IDE lors de la création de prototypes d’applications.Download data to your local computer for processing in IDE environments while building application prototypes.

Extraire des données de Data Lake Storage Gen2Egress data from Data Lake Storage Gen2

Voici une liste d'outils que vous pouvez utiliser pour télécharger des données à partir de Data Lake Storage Gen2.Here's a list of tools that you can use to download data from Data Lake Storage Gen2.

OutilTool AssistanceGuidance
Azure Data FactoryAzure Data Factory Activité Copy dans Azure Data FactoryCopy Activity in Azure Data Factory
Apache DistCpApache DistCp Utiliser DistCp pour copier des données entre Azure Storage Blob et Azure Data Lake Storage Gen2Use DistCp to copy data between Azure Storage Blobs and Azure Data Lake Storage Gen2
Explorateur de stockage AzureAzure Storage Explorer Utiliser l’Explorateur Stockage Azure pour gérer les répertoires, les fichiers et les listes de contrôle d’accès dans Azure Data Lake Storage Gen2Use Azure Storage Explorer to manage directories, files, and ACLs in Azure Data Lake Storage Gen2
Outil AzCopyAzCopy tool Transférer des données avec AzCopy et le Stockage BlobTransfer data with AzCopy and Blob storage