Azure Data Lake Storage Gen1 gebruiken voor big data-vereisten

Artikel
08/05/2022

Notitie

Azure Data Lake Storage Gen1 is nu buiten gebruik gesteld. Bekijk hier de aankondiging van de buitengebruikstelling. Data Lake Storage Gen1 resources zijn niet meer toegankelijk. Als u speciale hulp nodig hebt, neem dan contact met ons op.

Er zijn vier belangrijke fasen in de verwerking van big data:

Grote hoeveelheden gegevens opnemen in een gegevensarchief, in realtime of in batches
De gegevens verwerken
De gegevens downloaden
De gegevens visualiseren

In dit artikel bekijken we deze fasen met betrekking tot Azure Data Lake Storage Gen1 om inzicht te krijgen in de opties en hulpprogramma's die beschikbaar zijn om te voldoen aan uw big data-behoeften.

Gegevens opnemen in Data Lake Storage Gen1

In deze sectie worden de verschillende gegevensbronnen en de verschillende manieren besproken waarop deze gegevens kunnen worden opgenomen in een Data Lake Storage Gen1-account.

Gegevens opnemen in Data Lake Storage Gen1

Ad-hocgegevens

Dit vertegenwoordigt kleinere gegevenssets die worden gebruikt voor het maken van prototypen van een big data-toepassing. Er zijn verschillende manieren om ad-hocgegevens op te nemen, afhankelijk van de bron van de gegevens.

Gegevensbron	Opnemen met behulp van
Lokale computer	Azure-portal Azure PowerShell Azure-CLI Data Lake Tools voor Visual Studio gebruiken
Azure Storage Blob	Azure Data Factory AdlCopy-hulpprogramma DistCp uitgevoerd op HDInsight-cluster

Gestreamde gegevens

Dit vertegenwoordigt gegevens die kunnen worden gegenereerd door verschillende bronnen, zoals toepassingen, apparaten, sensoren, enzovoort. Deze gegevens kunnen door verschillende hulpprogramma's worden opgenomen in Data Lake Storage Gen1. Met deze hulpprogramma's worden de gegevens meestal per gebeurtenis in realtime vastgelegd en verwerkt en worden de gebeurtenissen vervolgens in batches in Data Lake Storage Gen1 geschreven, zodat ze verder kunnen worden verwerkt.

Hieronder vindt u hulpprogramma's die u kunt gebruiken:

Azure Stream Analytics: gebeurtenissen die worden opgenomen in Event Hubs, kunnen worden geschreven naar Azure Data Lake Storage Gen1 met behulp van een Azure Data Lake Storage Gen1-uitvoer.
EventProcessorHost: u kunt gebeurtenissen ontvangen van Event Hubs en deze vervolgens naar Data Lake Storage Gen1 schrijven met behulp van de Data Lake Storage Gen1 .NET SDK.

Relationele gegevens

U kunt ook gegevens uit relationele databases ophalen. In de loop van de tijd verzamelen relationele databases enorme hoeveelheden gegevens die belangrijke inzichten kunnen bieden als ze worden verwerkt via een big data-pijplijn. U kunt de volgende hulpprogramma's gebruiken om dergelijke gegevens naar Data Lake Storage Gen1 te verplaatsen.

Logboekgegevens van webserver (uploaden met aangepaste toepassingen)

Dit type gegevensset wordt specifiek genoemd omdat analyse van logboekgegevens van webservers een veelvoorkomend gebruiksvoorbeeld is voor big data-toepassingen en grote hoeveelheden logboekbestanden moeten worden geüpload naar Data Lake Storage Gen1. U kunt een van de volgende hulpprogramma's gebruiken om uw eigen scripts of toepassingen te schrijven om dergelijke gegevens te uploaden.

Voor het uploaden van logboekgegevens van webservers en ook voor het uploaden van andere soorten gegevens (bijvoorbeeld gegevens over sociale gevoelens), is het een goede benadering om uw eigen aangepaste scripts/toepassingen te schrijven, omdat het u de flexibiliteit biedt om uw onderdeel voor het uploaden van gegevens op te nemen als onderdeel van uw grotere big data-toepassing. In sommige gevallen kan deze code de vorm hebben van een script of een eenvoudig opdrachtregelprogramma. In andere gevallen kan de code worden gebruikt om de verwerking van big data te integreren in een zakelijke toepassing of oplossing.

Gegevens die zijn gekoppeld aan Azure HDInsight-clusters

De meeste HDInsight-clustertypen (Hadoop, HBase, Storm) ondersteunen Data Lake Storage Gen1 als opslagplaats voor gegevensopslag. HDInsight-clusters hebben toegang tot gegevens vanuit Azure Storage Blobs (WASB). Voor betere prestaties kunt u de gegevens van WASB kopiëren naar een Data Lake Storage Gen1-account dat aan het cluster is gekoppeld. U kunt de volgende hulpprogramma's gebruiken om de gegevens te kopiëren.

Gegevens die zijn opgeslagen in on-premises of IaaS Hadoop-clusters

Grote hoeveelheden gegevens kunnen worden opgeslagen in bestaande Hadoop-clusters, lokaal op computers die HDFS gebruiken. De Hadoop-clusters bevinden zich mogelijk in een on-premises implementatie of bevinden zich in een IaaS-cluster in Azure. Er kunnen vereisten zijn om dergelijke gegevens te kopiëren naar Azure Data Lake Storage Gen1 voor een eenmalige benadering of op een terugkerende manier. Er zijn verschillende opties die u kunt gebruiken om dit te bereiken. Hieronder vindt u een lijst met alternatieven en de bijbehorende compromissen.

Methode	Details	Voordelen	Overwegingen
Gebruik Azure Data Factory (ADF) om gegevens rechtstreeks van Hadoop-clusters naar Azure Data Lake Storage Gen1 te kopiëren	ADF ondersteunt HDFS als gegevensbron	ADF biedt kant-en-klare ondersteuning voor HDFS en eersteklas end-to-end-beheer en bewaking	Vereist dat Gegevensbeheer Gateway on-premises of in het IaaS-cluster wordt geïmplementeerd
Gegevens exporteren uit Hadoop als bestanden. Kopieer vervolgens de bestanden naar Azure Data Lake Storage Gen1 met behulp van het juiste mechanisme.	U kunt bestanden kopiëren naar Azure Data Lake Storage Gen1 met behulp van: Azure PowerShell voor Windows-besturingssysteem Azure-CLI Aangepaste app met een Data Lake Storage Gen1 SDK	Snel aan de slag. Kan aangepaste uploads uitvoeren	Proces met meerdere stappen waarbij meerdere technologieën zijn betrokken. Beheer en bewaking zullen na verloop van tijd een uitdaging worden, gezien de aangepaste aard van de hulpprogramma's
Gebruik Distcp om gegevens van Hadoop naar Azure Storage te kopiëren. Kopieer vervolgens gegevens uit Azure Storage naar Data Lake Storage Gen1 met behulp van het juiste mechanisme.	U kunt gegevens uit Azure Storage kopiëren naar Data Lake Storage Gen1 met behulp van: Azure Data Factory AdlCopy-hulpprogramma Apache DistCp wordt uitgevoerd op HDInsight-clusters	U kunt opensource-hulpprogramma's gebruiken.	Proces met meerdere stappen waarbij meerdere technologieën zijn betrokken

Zeer grote gegevenssets

Voor het uploaden van gegevenssets met een bereik van meerdere terabytes kan het gebruik van de hierboven beschreven methoden soms traag en kostbaar zijn. In dergelijke gevallen kunt u de onderstaande opties gebruiken.

Azure ExpressRoute gebruiken. Met Azure ExpressRoute kunt u privéverbindingen maken tussen Azure-datacenters en de infrastructuur op uw locatie. Dit biedt een betrouwbare optie voor het overdragen van grote hoeveelheden gegevens. Zie de documentatie voor Azure ExpressRoute voor meer informatie.
'Offline' uploaden van gegevens. Als het gebruik van Azure ExpressRoute om welke reden dan ook niet haalbaar is, kunt u de Azure Import/Export-service gebruiken om harde schijven met uw gegevens naar een Azure-datacenter te verzenden. Uw gegevens worden eerst geüpload naar Azure Storage-blobs. U kunt vervolgens Azure Data Factory of het hulpprogramma AdlCopy gebruiken om gegevens te kopiëren van Azure Storage-blobs naar Data Lake Storage Gen1.

Notitie

Tijdens het gebruik van de Import/Export-service mogen de bestandsgrootten op de schijven die u naar het Azure-datacenter verzendt, niet groter zijn dan 195 GB.

Gegevens verwerken die zijn opgeslagen in Data Lake Storage Gen1

Zodra de gegevens beschikbaar zijn in Data Lake Storage Gen1 kunt u analyses uitvoeren op die gegevens met behulp van de ondersteunde big data-toepassingen. Op dit moment kunt u Azure HDInsight en Azure Data Lake Analytics gebruiken om gegevensanalysetaken uit te voeren op de gegevens die zijn opgeslagen in Data Lake Storage Gen1.

Gegevens analyseren in Data Lake Storage Gen1

U kunt de volgende voorbeelden bekijken.

Gegevens downloaden van Data Lake Storage Gen1

Mogelijk wilt u ook gegevens downloaden of verplaatsen van Azure Data Lake Storage Gen1 voor scenario's zoals:

Verplaats gegevens naar andere opslagplaatsen om te communiceren met uw bestaande pijplijnen voor gegevensverwerking. U kunt bijvoorbeeld gegevens van Data Lake Storage Gen1 verplaatsen naar Azure SQL Database of SQL Server.
Download gegevens naar uw lokale computer voor verwerking in IDE-omgevingen tijdens het bouwen van toepassingsprototypes.

Gegevens van Data Lake Storage Gen1

In dergelijke gevallen kunt u een van de volgende opties gebruiken:

U kunt ook de volgende methoden gebruiken om uw eigen script/toepassing te schrijven om gegevens te downloaden van Data Lake Storage Gen1.

Gegevens visualiseren in Data Lake Storage Gen1

U kunt een combinatie van services gebruiken om visuele weergaven te maken van gegevens die zijn opgeslagen in Data Lake Storage Gen1.

Gegevens visualiseren in Data Lake Storage Gen1

U kunt beginnen met Azure Data Factory gegevens te verplaatsen van Data Lake Storage Gen1 naar Azure Synapse Analytics
Daarna kunt u Power BI integreren met Azure Synapse Analytics om een visuele weergave van de gegevens te maken.

Azure Data Lake Storage Gen1 gebruiken voor big data-vereisten

Gegevens opnemen in Data Lake Storage Gen1

Ad-hocgegevens

Gestreamde gegevens

Relationele gegevens

Logboekgegevens van webserver (uploaden met aangepaste toepassingen)

Gegevens die zijn gekoppeld aan Azure HDInsight-clusters

Gegevens die zijn opgeslagen in on-premises of IaaS Hadoop-clusters

Zeer grote gegevenssets

Gegevens verwerken die zijn opgeslagen in Data Lake Storage Gen1

Gegevens downloaden van Data Lake Storage Gen1

Gegevens visualiseren in Data Lake Storage Gen1

Aanvullende resources