Een big data-opslagtechnologie kiezen in Azure
Notitie
Op 29 februari 2024 wordt Azure Data Lake Storage Gen1 buiten gebruik gesteld. Zie de officiële aankondiging voor meer informatie. Als u Azure Data Lake Storage Gen1 gebruikt, moet u vóór die datum migreren naar Azure Data Lake Storage Gen2. Zie Azure Data Lake Storage migreren van Gen1 naar Gen2 met behulp van Azure Portal voor meer informatie.
Tenzij u al een Azure Data Lake Storage Gen1-account hebt, kunt u geen nieuwe maken.
In dit onderwerp worden opties voor gegevensopslag voor big data-oplossingen vergeleken, met name gegevensopslag voor bulkgegevensopname en batchverwerking, in plaats van analytische gegevensarchieven of realtime streamingopname.
Wat zijn uw opties bij het kiezen van gegevensopslag in Azure?
Er zijn verschillende opties voor het opnemen van gegevens in Azure, afhankelijk van uw behoeften.
Bestandsopslag:
NoSQL-databases:
Analytische databases:
Azure Storage-blobs
Azure Storage is een beheerde opslagservice die maximaal beschikbaar, veilig, duurzaam, schaalbaar en redundant is. Microsoft zorgt voor het onderhoud en handelt kritieke problemen voor u af. Azure Storage is de meest alomtegenwoordige opslagoplossing die Azure biedt, vanwege het aantal services en hulpprogramma's dat ermee kan worden gebruikt.
Er zijn verschillende Azure Storage-services die u kunt gebruiken om gegevens op te slaan. De meest flexibele optie voor het opslaan van blobs uit veel gegevensbronnen is Blob Storage. Blobs zijn eigenlijk bestanden. Ze slaan afbeeldingen, documenten, HTML-bestanden, virtuele harde schijven (VHD's), big data, zoals logboeken, back-ups van databases, vrijwel alles op. Blobs worden opgeslagen in containers, die vergelijkbaar zijn met mappen. Een container biedt een groepering van een set blobs. Een opslagaccount kan een onbeperkt aantal containers bevatten en een container kan een onbeperkt aantal blobs bevatten.
Azure Storage is een goede keuze voor big data- en analyseoplossingen, vanwege de flexibiliteit, hoge beschikbaarheid en lage kosten. Het biedt dynamische, statische en archiefopslaglagen voor verschillende gebruiksvoorbeelden. Zie Azure Blob Storage: Dynamische, statische en archiefopslaglagen voor meer informatie.
Azure Blob Storage kan worden geopend vanuit Hadoop (beschikbaar via HDInsight). HDInsight kan een blobcontainer in Azure Storage gebruiken als het standaardbestandssysteem voor het cluster. Via een HDFS-interface (Hadoop Distributed File System) die wordt geleverd door een WASB-stuurprogramma, kan de volledige set onderdelen in HDInsight rechtstreeks worden uitgevoerd op gestructureerde of ongestructureerde gegevens die zijn opgeslagen als blobs. Azure Blob Storage kan ook worden geopend via Azure Synapse Analytics met behulp van de PolyBase-functie.
Andere functies die Azure Storage een goede keuze maken, zijn:
- Meerdere gelijktijdigheidsstrategieën.
- Opties voor herstel na noodgevallen en hoge beschikbaarheid.
- Versleuteling-at-rest.
- Op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) om de toegang te beheren met behulp van Microsoft Entra-gebruikers en -groepen.
Azure Data Lake Storage Gen1
Azure Data Lake Storage Gen1 is een opslagplaats voor hyperscale in de hele onderneming voor analyseworkloads voor big data. Met Data Lake kunt u gegevens van elke grootte, elk type en de opnamesnelheid vastleggen op één veilige locatie voor operationele en verkennende analyses.
Azure Data Lake Storage Gen1 legt geen limieten op voor accountgrootten, bestandsgrootten of de hoeveelheid gegevens die in een data lake kan worden opgeslagen. Gegevens worden duurzaam opgeslagen door meerdere kopieën te maken en er is geen limiet voor de duur van de tijd dat de gegevens kunnen worden opgeslagen in Data Lake. Naast het maken van meerdere kopieën van bestanden om te beschermen tegen onverwachte fouten, verspreidt Data Lake delen van een bestand over een aantal afzonderlijke opslagservers. Hiermee verbetert u de doorvoer wanneer het bestand in parallel wordt gelezen voor het uitvoeren van gegevensanalyse.
Azure Data Lake Storage Gen1 kan worden geopend vanuit Hadoop (beschikbaar via HDInsight) met behulp van de WEBHDFS-compatibele REST API's. U kunt overwegen dit te gebruiken als alternatief voor Azure Storage wanneer uw afzonderlijke of gecombineerde bestandsgrootten groter zijn dan de grootte die wordt ondersteund door Azure Storage. Er zijn echter richtlijnen voor het afstemmen van de prestaties die u moet volgen bij het gebruik van Azure Data Lake Storage Gen1 als primaire opslag voor een HDInsight-cluster, met specifieke richtlijnen voor Spark, Hive en MapReduce. Zorg er ook voor dat u de regionale beschikbaarheid van Azure Data Lake Storage Gen1 controleert, omdat deze niet beschikbaar is in zoveel regio's als Azure Storage en deze zich in dezelfde regio moet bevinden als uw HDInsight-cluster.
In combinatie met Azure Data Lake Analytics is Azure Data Lake Storage Gen1 ontworpen om analyses op de opgeslagen gegevens mogelijk te maken en is afgestemd op prestaties voor gegevensanalysescenario's. Azure Data Lake Storage Gen1 kan ook worden geopend via Azure Synapse met behulp van de PolyBase-functie.
Azure Cosmos DB
Azure Cosmos DB is de wereldwijd gedistribueerde multimodeldatabase van Microsoft. Azure Cosmos DB garandeert latenties van één milliseconden op het 99e percentiel overal ter wereld, biedt meerdere goed gedefinieerde consistentiemodellen om de prestaties af te stemmen en garandeert hoge beschikbaarheid met multihoming-mogelijkheden.
Azure Cosmos DB is schemaneutraal. Alle gegevens worden automatisch geïndexeert zonder dat u te maken hebt met schema- en indexbeheer. Het is ook een model met meerdere modellen, systeemeigen ondersteuning voor document-, sleutelwaarde-, grafiek- en kolomfamiliegegevensmodellen.
Azure Cosmos DB-functies:
- Geo-replicatie
- Elastisch schalen van doorvoer en opslag wereldwijd
- Vijf duidelijk gedefinieerde consistentieniveaus
HBase op HDInsight
Apache HBase is een opensource NoSQL-database die is gebouwd op Hadoop en gemodelleerd na Google BigTable. HBase biedt willekeurige toegang en sterke consistentie voor grote hoeveelheden ongestructureerde en semi-gestructureerde gegevens in een schemaloze database die is geordend op kolomfamilies.
De gegevens worden opgeslagen in de rijen van een tabel en de gegevens in een rij worden gegroepeerd op basis van de kolomfamilie. HBase is schemaloos in de zin dat noch de kolommen noch het type gegevens dat erin is opgeslagen, moeten worden gedefinieerd voordat u ze gebruikt. De open-source code wordt lineair geschaald om petabytes aan gegevens op duizenden knooppunten te verwerken. Hiervoor kan gebruik worden gemaakt van gegevensredundantie, batchverwerking en andere functies die worden geboden door gedistribueerde toepassingen in het Hadoop-ecosysteem.
De HDInsight-implementatie maakt gebruik van de uitschaalarchitectuur van HBase om automatische sharding van tabellen, sterke consistentie voor lees- en schrijfbewerkingen en automatische failover te bieden. De prestaties zijn verbeterd dankzij in-memory caching voor leesbewerkingen en streamen met een hoge gegevensdoorvoer voor schrijfbewerkingen. In de meeste gevallen wilt u het HBase-cluster in een virtueel netwerk maken, zodat andere HDInsight-clusters en -toepassingen rechtstreeks toegang hebben tot de tabellen.
Azure Data Explorer
Azure Data Explorer is een snelle en zeer schaalbare service voor gegevensverkenning voor logboek- en telemetriegegevens. Het helpt u bij het afhandelen van de vele gegevensstromen die worden verzonden door moderne software, zodat u gegevens kunt verzamelen, opslaan en analyseren. Azure Data Explorer is ideaal om grote hoeveelheden diverse gegevens van elke gegevensbron te analyseren, zoals websites, toepassingen, IoT-apparaten en meer. Deze gegevens worden gebruikt voor diagnose, bewaking, rapportage, machine learning en aanvullende analysemogelijkheden. Met Azure Data Explorer kunt u deze gegevens eenvoudig opnemen en kunt u in seconden complexe ad-hocquery's uitvoeren op de gegevens.
Azure Data Explorer kan lineair worden uitgeschaald voor een toenemende opname- en queryverwerkingsdoorvoer. Een Azure Data Explorer-cluster kan worden geïmplementeerd in een virtueel netwerk voor het inschakelen van privénetwerken.
Criteria voor sleutelselectie
Om de keuzes te beperken, beantwoordt u eerst deze vragen:
Hebt u beheerde, snelle, cloudopslag nodig voor elk type tekst of binaire gegevens? Zo ja, selecteert u een van de opties voor bestandsopslag of analyse.
Hebt u bestandsopslag nodig die is geoptimaliseerd voor parallelle analyseworkloads en hoge doorvoer/IOPS? Zo ja, kies dan een optie die is afgestemd op de prestaties van analyseworkloads.
Moet u ongestructureerde of semi-gestructureerde gegevens opslaan in een schemaloze database? Als dat het zo is, selecteert u een van de niet-relationele of analyseopties. Vergelijkingsopties voor indexering en databasemodellen. Afhankelijk van het type gegevens dat u moet opslaan, kunnen de primaire databasemodellen de grootste factor zijn.
Kunt u de service in uw regio gebruiken? Controleer de regionale beschikbaarheid voor elke Azure-service. Zie Beschikbare producten per regio.
Mogelijkheidsmatrix
De volgende tabellen bevatten een overzicht van de belangrijkste verschillen in mogelijkheden.
Mogelijkheden voor bestandsopslag
Mogelijkheid | Azure Data Lake Storage Gen1 | Azure Blob Storage-containers |
---|---|---|
Doel | Geoptimaliseerde opslag voor big data-analyseworkloads | Objectopslag voor algemeen gebruik voor een groot aantal opslagscenario's |
Gebruiksgevallen | Batch-, streaming-analyse- en machine learning-gegevens zoals logboekbestanden, IoT-gegevens, klik op streams, grote gegevenssets | Elk type tekst of binaire gegevens, zoals back-end van toepassingen, back-upgegevens, mediaopslag voor streaming en algemene gegevens |
Structuur | Hiërarchisch bestandssysteem | Objectarchief met platte naamruimte |
Verificatie | Op basis van Microsoft Entra-identiteiten | Op basis van toegangssleutels voor gedeelde geheimen en Shared Access Signature-sleutels en op rollen gebaseerd toegangsbeheer van Azure (Azure RBAC) |
Verificatieprotocol | OAuth 2.0. Aanroepen moeten een geldig JWT (JSON-webtoken) bevatten dat is uitgegeven door Microsoft Entra ID | HMAC (Hash-based message authentication code). Aanroepen moeten een SHA-256-hash met Base64-codering bevatten via een deel van de HTTP-aanvraag. |
Autorisatie | POSIX-toegangsbeheerlijsten (ACL's). ACL's op basis van Microsoft Entra-identiteiten kunnen bestand- en mapniveau instellen. | Gebruik accounttoegangssleutels voor autorisatie op accountniveau. Voor account-, container- of blobautorisatie gebruikt u Shared Access Signature Keys. |
Controle | Beschikbaar. | Beschikbaar |
Versleuteling 'at rest' | Transparant, serverzijde | Transparant, serverzijde; Versleuteling aan clientzijde |
Sdk's voor ontwikkelaars | .NET, Java, Python, Node.js | .NET, Java, Python, Node.js, C++, Ruby |
Prestaties van analyseworkloads | Geoptimaliseerde prestaties voor parallelle analyseworkloads, hoge doorvoer en IOPS | Niet geoptimaliseerd voor analyseworkloads |
Maximale grootte | Geen limieten voor accountgrootten, bestandsgrootten of aantal bestanden | Specifieke limieten die hier worden beschreven |
Geografische redundantie | Lokaal redundant (LRS), globally redundant (GRS), read-access globally redundant (RA-GRS), zone-redundant (ZRS). | Lokaal redundant (LRS), globally redundant (GRS), read-access globally redundant (RA-GRS), zone-redundant (ZRS). Kijk hier voor meer informatie. |
NoSQL-databasemogelijkheden
Mogelijkheid | Azure Cosmos DB | HBase op HDInsight |
---|---|---|
Primair databasemodel | Documentarchief, grafiek, sleutel-waardearchief, breed kolomarchief | Breed kolomarchief |
Secundaire indexen | Ja | Nr. |
Ondersteuning voor SQL-taal | Ja | Ja (met behulp van het Phoenix JDBC-stuurprogramma) |
Consistentie | Sterke, gebonden veroudering, sessie, consistent voorvoegsel, uiteindelijk | Sterk |
Systeemeigen Azure Functions-integratie | Ja | Nr. |
Automatische wereldwijde distributie | Ja | Er kan geenHBase-clusterreplicatie worden geconfigureerd in verschillende regio's met uiteindelijke consistentie |
Prijsmodel | Elastisch schaalbare aanvraageenheden (RU's) die naar behoefte per seconde worden in rekening gebracht, elastisch schaalbare opslag | Prijzen per minuut voor HDInsight-cluster (horizontaal schalen van knooppunten), opslag |
Mogelijkheden voor analytische databases
Mogelijkheid | Azure Data Explorer |
---|---|
Primair databasemodel | Relationeel (kolomarchief), telemetrie en tijdreeksarchief |
Ondersteuning voor SQL-taal | Ja |
Prijsmodel | Elastisch schaalbare clusterexemplaren |
Verificatie | Op basis van Microsoft Entra-identiteiten |
Versleuteling 'at rest' | Ondersteunde, door de klant beheerde sleutels |
Prestaties van analyseworkloads | Geoptimaliseerde prestaties voor parallelle analyseworkloads |
Maximale grootte | Lineair schaalbaar |
Bijdragers
Dit artikel wordt onderhouden door Microsoft. De tekst is oorspronkelijk geschreven door de volgende Inzenders.
Hoofdauteur:
- Zoiner Tejada | CEO en architect
Volgende stappen
- Oplossingen en services voor Azure Cloud Storage
- Uw opslagopties controleren
- Kennismaking met Azure Storage
- Inleiding tot Azure Data Explorer
Verwante resources
Feedback
https://aka.ms/ContentUserFeedback.
Binnenkort beschikbaar: In de loop van 2024 zullen we GitHub-problemen geleidelijk uitfaseren als het feedbackmechanisme voor inhoud en deze vervangen door een nieuw feedbacksysteem. Zie voor meer informatie:Feedback verzenden en weergeven voor