Share via


Overzicht van Azure Data Lake Storage Gen1 in HDInsight

Azure Data Lake Storage Gen1 is een opslagplaats voor hyperscale in de hele onderneming voor analyseworkloads voor big data. Met Behulp van Azure Data Lake kunt u gegevens van elke grootte, elk type en opnamesnelheid vastleggen. En op één plek voor operationele en verkennende analyses.

Toegang tot Data Lake Storage Gen1 vanuit Hadoop (beschikbaar met een HDInsight-cluster) met behulp van de webHDFS-compatibele REST API's. Data Lake Storage Gen1 is ontworpen om analyses op de opgeslagen gegevens mogelijk te maken en is afgestemd op prestaties in scenario's voor gegevensanalyse. Gen1 bevat de mogelijkheden die essentieel zijn voor praktijkgebruiksscenario's voor ondernemingen. Deze mogelijkheden omvatten beveiliging, beheerbaarheid, aanpassingsvermogen, betrouwbaarheid en beschikbaarheid.

Zie het gedetailleerde overzicht van Azure Data Lake Storage Gen1 voor meer informatie over Azure Data Lake Storage Gen1.

De belangrijkste mogelijkheden van Data Lake Storage Gen1 zijn onder andere:

Compatibiliteit met Hadoop

Data Lake Storage Gen1 is een Apache Hadoop-bestandssysteem dat compatibel is met HDFS- en Hadoop-omgeving. HDInsight-toepassingen of -services die gebruikmaken van de WebHDFS-API kunnen eenvoudig worden geïntegreerd met Data Lake Storage Gen1. Data Lake Storage Gen1 bevat ook een met WebHDFS compatibele REST-interface voor toepassingen.

Gegevens die zijn opgeslagen in Data Lake Storage Gen1 kunnen eenvoudig worden geanalyseerd met behulp van hadoop-analyseframeworks. Frameworks zoals MapReduce of Hive. Azure HDInsight-clusters kunnen worden ingericht en geconfigureerd om rechtstreeks toegang te krijgen tot gegevens die zijn opgeslagen in Data Lake Storage Gen1.

Onbeperkte opslag, bestanden ter grootte van petabytes

Data Lake Storage Gen1 biedt onbeperkte opslag en is geschikt voor het opslaan van verschillende soorten gegevens voor analyse. Er gelden geen limieten voor accountgrootten of bestandsgrootten. Of de hoeveelheid gegevens die kan worden opgeslagen in een data lake. Afzonderlijke bestanden variëren van kilobytes tot petabytes, waardoor Data Lake Storage Gen1 een uitstekende keuze is om elk type gegevens op te slaan. Gegevens worden blijvend opgeslagen door er meerdere kopieën van te maken. En er zijn geen limieten voor hoe lang de gegevens kunnen worden opgeslagen in de data lake.

Prestaties afstemmen voor big data-analyses

Data Lake Storage Gen1 is ontworpen voor analysesystemen. Systemen waarvoor enorme doorvoer nodig is om grote hoeveelheden gegevens op te vragen en te analyseren. De data lake verspreidt delen van een bestand over verschillende afzonderlijke opslagservers. Wanneer u gegevens analyseert, verbetert deze instelling de leesdoorvoer wanneer het bestand parallel wordt gelezen.

Gereedheid voor ondernemingen: maximaal beschikbaar en veilig

Data Lake Storage Gen1 biedt beschikbaarheid en betrouwbaarheid conform industriestandaarden. Gegevensassets worden duurzaam opgeslagen: redundante kopieën beschermen tegen onverwachte fouten. Ondernemingen kunnen Data Lake Storage Gen1 in hun oplossingen gebruiken als een belangrijk onderdeel van hun bestaande gegevensplatform.

Data Lake Storage Gen1 biedt ook beveiliging op bedrijfsniveau voor opgeslagen gegevens. Zie voor meer informatie Gegevens beveiligen in Azure Data Lake Storage Gen1.

Flexibele gegevensstructuren

Data Lake Storage Gen1 kan alle gegevens opslaan in de systeemeigen indeling, zoals dat wel het geval is, zonder dat hiervoor voorafgaande transformaties nodig zijn. Data Lake Storage Gen1 vereist geen schema dat moet worden gedefinieerd voordat de gegevens worden geladen. Het afzonderlijke analyseframework interpreteert de gegevens en definieert een schema op het moment van de analyse. Data Lake Storage Gen1 kan gestructureerde gegevens verwerken. En semi-gestructureerde en ongestructureerde gegevens.

Containers voor gegevens van Data Lake Storage Gen1 zijn eigenlijk mappen en bestanden. U werkt met de opgeslagen gegevens met behulp van SDK's, Azure Portal en Azure PowerShell. Gegevens die in het archief worden geplaatst met deze interfaces en containers, kunnen elk gegevenstype opslaan. Data Lake Storage Gen1 voert geen speciale verwerking van gegevens uit op basis van het type gegevens.

Gegevensbeveiliging in Data Lake Storage Gen1

Data Lake Storage Gen1 maakt gebruik van Microsoft Entra-id voor verificatie en maakt gebruik van toegangsbeheerlijsten (ACL's) om de toegang tot uw gegevens te beheren.

Functie Beschrijving
Verificatie Data Lake Storage Gen1 kan worden geïntegreerd met Microsoft Entra ID voor identiteits- en toegangsbeheer voor alle gegevens die zijn opgeslagen in Data Lake Storage Gen1. Vanwege de integratie profiteert Data Lake Storage Gen1 van alle Microsoft Entra-functies. Deze functies omvatten: meervoudige verificatie, voorwaardelijke toegang en op rollen gebaseerd toegangsbeheer van Azure. Ook toepassingsgebruikscontrole, beveiligingsbewaking en waarschuwingen, enzovoort. Data Lake Storage Gen1 ondersteunt het OAuth 2.0-protocol voor verificatie in de REST-interface. Zie Verificatie in Azure Data Lake Storage Gen1 met behulp van Microsoft Entra-id
Toegangsbeheer Data Lake Storage Gen1 biedt toegangsbeheer door ondersteuning te bieden voor POSIX-stijlmachtigingen die worden weergegeven door het WebHDFS-protocol. ACL's kunnen worden ingeschakeld voor de hoofdmap, submappen en afzonderlijke bestanden. Zie Toegangsbeheer in Data Lake Storage Gen1 voor meer informatie over hoe ACL's werken in de context van Data Lake Storage Gen1.
Versleuteling Data Lake Storage Gen1 biedt ook versleuteling voor gegevens die zijn opgeslagen in het account. U geeft de versleutelingsinstellingen op tijdens het maken van een Data Lake Storage Gen1-account. U kunt ervoor kiezen de gegevens te versleutelen of niet te versleutelen. Zie Versleuteling in Data Lake Storage Gen1 voor meer informatie. Zie Aan de slag met Azure Data Lake Storage Gen1 met behulp van Azure Portal voor instructies over het bieden van een versleutelingsconfiguratie.

Zie Gegevens beveiligen die zijn opgeslagen in Azure Data Lake Storage Gen1 voor meer informatie over het beveiligen van gegevens in Data Lake Storage Gen1.

Toepassingen die compatibel zijn met Data Lake Storage Gen1

Data Lake Storage Gen1 is compatibel met de meeste opensource-onderdelen in de Hadoop-omgeving. Het kan ook goed worden geïntegreerd in andere Azure-services. Volg de onderstaande koppelingen voor meer informatie over hoe Data Lake Storage Gen1 kan worden gebruikt, zowel met opensource-onderdelen als andere Azure-services.

Data Lake Storage Gen1-bestandssysteem (adl://)

In Hadoop-omgevingen hebt u toegang tot Data Lake Storage Gen1 via het nieuwe bestandssysteem, het AzureDataLakeFilesystem (adl://). De prestaties van toepassingen en services die worden gebruikt adl:// , kunnen worden geoptimaliseerd op manieren die momenteel niet beschikbaar zijn in WebHDFS. Als gevolg hiervan krijgt u de flexibiliteit om te profiteren van de beste prestaties met behulp van de aanbevolen adl://. U kunt ook bestaande code onderhouden door de WebHDFS-API rechtstreeks te blijven gebruiken. Azure HDInsight maakt optimaal gebruik van het AzureDataLakeFilesystem om de beste prestaties op Data Lake Storage Gen1 te bieden.

Open uw gegevens in Data Lake Storage Gen1 met behulp van de volgende URI:

adl://<data_lake_storage_gen1_name>.azuredatalakestore.net

Zie Acties die beschikbaar zijn voor de opgeslagen gegevens voor meer informatie over toegang tot de gegevens in Data Lake Storage Gen1.

Volgende stappen