Uso di Archivio Data Lake di Azure per requisiti Big DataUsing Azure Data Lake Store for big data requirements

L'elaborazione di Big Data prevede quattro fasi principali:There are four key stages in big data processing:

  • Inserimento di grandi quantità di dati in un archivio dati, in tempo reale o in batchIngesting large amounts of data into a data store, at real-time or in batches
  • Elaborazione dei datiProcessing the data
  • Download dei datiDownloading the data
  • Visualizzazione dei datiVisualizing the data

In questo articolo sono descritte le quattro fasi per Archivio Azure Data Lake per illustrare le opzioni e gli strumenti disponibili per soddisfare le esigenze di Big Data.In this article, we look at these stages with respect to Azure Data Lake Store to understand the options and tools available to meet your big data needs.

Inserire i dati in Archivio Data LakeIngest data into Data Lake Store

Questa sezione descrive le diverse origini dei dati e i diversi modi in cui i dati possono essere inseriti in un account di Archivio Data Lake.This section highlights the different sources of data and the different ways in which that data can be ingested into a Data Lake Store account.

Inserire i dati in Data Lake StoreIngest data into Data Lake Store

Dati ad hocAd hoc data

Si tratta di set di dati di piccole dimensioni usati per la creazione del prototipo di un'applicazione Big Data.This represents smaller data sets that are used for prototyping a big data application. L'inserimento di dati ad hoc può essere eseguito in modi diversi, a seconda dell'origine dei dati.There are different ways of ingesting ad hoc data depending on the source of the data.

Origine datiData Source Inserire usandoIngest it using
Computer localeLocal computer
BLOB di Archiviazione di AzureAzure Storage Blob

Dati di streamingStreamed data

Si tratta dei dati che possono essere generati da origini diverse, ad esempio applicazioni, dispositivi, sensori, ecc. Questi dati possono essere inseriti in un Archivio Data Lake tramite strumenti diversi.This represents data that can be generated by various sources such as applications, devices, sensors, etc. This data can be ingested into a Data Lake Store by variety tools. Questi strumenti in genere acquisiscono ed elaborano i dati di un singolo evento in tempo reale e quindi scrivono gli eventi in batch in Archivio Data Lake in modo che possono essere elaborati ulteriormente.These tools will usually capture and process the data on an event-by-event basis in real-time, and then write the events in batches into Data Lake Store so that they can be further processed.

Di seguito sono elencati gli strumenti che è possibile usare:Following are tools that you can use:

Dati relazionaliRelational data

È inoltre possibile recuperare i dati dai database relazionali.You can also source data from relational databases. I database relazionali raccolgono nel tempo elevate quantità di dati che possono fornire informazioni significative se elaborate tramite una pipeline Big Data.Over a period of time, relational databases collect huge amounts of data which can provide key insights if processed through a big data pipeline. Per spostare i dati in Archivio Data Lake è possibile usare gli strumenti seguenti.You can use the following tools to move such data into Data Lake Store.

Dati di log del server Web (caricamento tramite applicazioni personalizzate)Web server log data (upload using custom applications)

Questo tipo di set di dati è indicato in modo specifico perché l'analisi dei dati di log del server Web è un caso d'uso comune per le applicazioni Big Data e richiede il caricamento di grandi volumi di file di log in Archivio Data Lake.This type of dataset is specifically called out because analysis of web server log data is a common use case for big data applications and requires large volumes of log files to be uploaded to the Data Lake Store. Per scrivere script o applicazioni per il caricamento dei dati è possibile usare uno degli strumenti seguenti.You can use any of the following tools to write your own scripts or applications to upload such data.

Per il caricamento di dati di log del server Web e per il caricamento di altri tipi di dati, ad esempio i dati delle valutazioni dei social network, è consigliabile scrivere script o applicazioni personalizzate che offrono la flessibilità di includere il componente di caricamento dei dati come parte dell'applicazione Big Data più grande.For uploading web server log data, and also for uploading other kinds of data (e.g. social sentiments data), it is a good approach to write your own custom scripts/applications because it gives you the flexibility to include your data uploading component as part of your larger big data application. In alcuni casi, questo codice può essere rappresentato da uno script o un'utilità della riga di comando.In some cases this code may take the form of a script or simple command line utility. In altri casi, il codice può essere usato per integrare l'elaborazione di Big Data in un'applicazione o una soluzione aziendale.In other cases, the code may be used to integrate big data processing into a business application or solution.

Dati associati ai cluster Azure HDInsightData associated with Azure HDInsight clusters

La maggior parte dei tipi di cluster HDInsight (Hadoop, HBase, Storm) supportano Archivio Data Lake come repository di archiviazione dei dati.Most HDInsight cluster types (Hadoop, HBase, Storm) support Data Lake Store as a data storage repository. I cluster HDInsight accedono ai dati dai BLOB di archiviazione di Azure (WASB).HDInsight clusters access data from Azure Storage Blobs (WASB). Per prestazioni ottimali, è possibile copiare i dati dal WASB in un account Archivio Data Lake associato al cluster.For better performance, you can copy the data from WASB into a Data Lake Store account associated with the cluster. Per copiare i dati è possibile usare gli strumenti seguenti.You can use the following tools to copy the data.

Dati archiviati in locale o in cluster IaaS HadoopData stored in on-premises or IaaS Hadoop clusters

Grandi quantità di dati possono essere archiviati in cluster Hadoop esistenti, localmente, nei computer che usano HDFS.Large amounts of data may be stored in existing Hadoop clusters, locally on machines using HDFS. I cluster Hadoop potrebbero essere in una distribuzione locale o all'interno di un cluster IaaS in Azure.The Hadoop clusters may be in an on-premises deployment or may be within an IaaS cluster on Azure. Potrebbe essere necessario copiare tali dati in un Archivio Azure Data Lake una sola volta o regolarmente.There could be requirements to copy such data to Azure Data Lake Store for a one-off approach or in a recurring fashion. Sono disponibili diverse opzioni che è possibile usare per ottenere questo.There are various options that you can use to achieve this. Di seguito è riportato un elenco di alternative con i relativi compromessi.Below is a list of alternatives and the associated trade-offs.

ApproccioApproach DettagliDetails VantaggiAdvantages ConsiderazioniConsiderations
Usare Azure Data Factory (ADF) per copiare i dati direttamente dal cluster Hadoop nell'Archivio Data Lake di AzureUse Azure Data Factory (ADF) to copy data directly from Hadoop clusters to Azure Data Lake Store ADF supporta HDFS come origine datiADF supports HDFS as a data source ADF fornisce il supporto nativo per HDFS e il monitoraggio e gestione end-to-end di prima classeADF provides out-of-the-box support for HDFS and first class end-to-end management and monitoring Richiede che il gateway di gestione dati sia distribuito localmente nel cluster IaaSRequires Data Management Gateway to be deployed on-premises or in the IaaS cluster
Esportare dati da Hadoop come file.Export data from Hadoop as files. Quindi copiare i file in Archivio Data Lake di Azure mediante la procedura appropriata.Then copy the files to Azure Data Lake Store using appropriate mechanism. È possibile copiare i file in Azure Data Lake Store usando: You can copy files to Azure Data Lake Store using: Guida introduttiva per iniziare.Quick to get started. È possibile eseguire caricamenti personalizzatiCan do customized uploads Processo in più passaggi che prevede più tecnologie.Multi-step process that involves multiple technologies. La gestione e il monitoraggio miglioreranno fino a rappresentare una sfida nel corso del tempo data la natura personalizzata degli strumentiManagement and monitoring will grow to be a challenge over time given the customized nature of the tools
Usare Distcp per copiare dati da Hadoop ad Archiviazione di Azure.Use Distcp to copy data from Hadoop to Azure Storage. Quindi copiare i file da Archiviazione di Azure mediante la procedura appropriata.Then copy data from Azure Storage to Data Lake Store using appropriate mechanism. È possibile copiare i dati da Archiviazione di Azure in Data Lake Store usando: You can copy data from Azure Storage to Data Lake Store using: È possibile usare strumenti open source.You can use open-source tools. Processo in più passaggi che prevede più tecnologieMulti-step process that involves multiple technologies

Set di dati di grandi dimensioniReally large datasets

L'uso dei metodi descritti in precedenza per il caricamento di set di dati di più terabyte può talvolta risultare lento e costoso.For uploading datasets that range in several terabytes, using the methods described above can sometimes be slow and costly. In questi casi, è possibile usare le opzioni seguenti.In such cases, you can use the options below.

  • Uso di Azure ExpressRoute.Using Azure ExpressRoute. Azure ExpressRoute consente di creare connessioni private tra i data center di Azure e l'infrastruttura locale.Azure ExpressRoute lets you create private connections between Azure datacenters and infrastructure on your premises. Ciò offre un'opzione affidabile per il trasferimento di grandi quantità di dati.This provides a reliable option for transferring large amounts of data. Per altre informazioni, vedere la Documentazione su ExpressRoute.For more information, see Azure ExpressRoute documentation.
  • Caricamento "offline" dei dati."Offline" upload of data. Se l'uso di Azure ExpressRoute non è possibile per qualsiasi motivo, si può usare il servizio Importazione/Esportazione di Azure per inviare le unità disco rigido coi dati a un data center di Azure.If using Azure ExpressRoute is not feasible for any reason, you can use Azure Import/Export service to ship hard disk drives with your data to an Azure data center. I dati vengono caricati prima di tutto in BLOB di archiviazione di Azure.Your data is first uploaded to Azure Storage Blobs. È quindi possibile usare Azure Data Factory o lo strumento AdlCopy per copiare i dati dai BLOB di archiviazione di Azure a Data Lake Store.You can then use Azure Data Factory or AdlCopy tool to copy data from Azure Storage Blobs to Data Lake Store.

    Nota

    Durante l'uso del servizio di Importazione/Esportazione, le dimensioni dei file nei dischi inviati al data center di Azure non devono superare i 195 GB.While using the Import/Export service, the file sizes on the disks that you ship to Azure data center should not be greater than 195 GB.

Elaborare i dati archiviati in Archivio Data LakeProcess data stored in Data Lake Store

Quando i dati sono disponibili in Archivio Data Lake è possibile eseguire l'analisi sui dati tramite le applicazioni Big Data supportate.Once the data is available in Data Lake Store you can run analysis on that data using the supported big data applications. Attualmente, è possibile usare Azure HDInsight e Analisi Data Lake per eseguire processi di analisi dei dati sui dati archiviati in Archivio Data Lake.Currently, you can use Azure HDInsight and Azure Data Lake Analytics to run data analysis jobs on the data stored in Data Lake Store.

Analizzare i dati in Data Lake StoreAnalyze data in Data Lake Store

Esaminare gli esempi seguenti.You can look at the following examples.

Scaricare i dati da Archivio Data LakeDownload data from Data Lake Store

È anche possibile che si desideri scaricare o spostare i dati da Archivio Azure Data Lake per scenari simili ai seguenti:You might also want to download or move data from Azure Data Lake Store for scenarios such as:

  • Spostare i dati in altri repository per l'interfaccia con le pipeline di elaborazione dati esistenti.Move data to other repositories to interface with your existing data processing pipelines. È possibile ad esempio che si desideri spostare i dati da Archivio Data Lake al database SQL di Azure o al server SQL locale.For example, you might want to move data from Data Lake Store to Azure SQL Database or on-premises SQL Server.
  • Scaricare i dati nel computer locale per l'elaborazione in ambienti IDE durante la creazione di prototipi di applicazioni.Download data to your local computer for processing in IDE environments while building application prototypes.

Estrarre i dati da Data Lake StoreEgress data from Data Lake Store

In questi casi, è possibile usare le opzioni seguenti:In such cases, you can use any of the following options:

È anche possibile usare i metodi seguenti per scrivere script o applicazioni personalizzate per scaricare i dati da Archivio Data Lake.You can also use the following methods to write your own script/application to download data from Data Lake Store.

Visualizzare i dati in Archivio Data LakeVisualize data in Data Lake Store

È possibile usare più servizi per creare rappresentazioni visive dei dati archiviati in Archivio Data Lake.You can use a mix of services to create visual representations of data stored in Data Lake Store.

Visualizzare i dati in Data Lake StoreVisualize data in Data Lake Store