Wat is de medaille-lakehousearchitectuur?

In de medallayer-architectuur wordt een reeks gegevenslagen beschreven die duiden op de kwaliteit van gegevens die zijn opgeslagen in het lakehouse. Databricks raadt aan om een benadering met meerdere lagen te gebruiken voor het bouwen van één bron van waarheid voor zakelijke gegevensproducten. Deze architectuur garandeert atomiciteit, consistentie, isolatie en duurzaamheid wanneer gegevens meerdere lagen validaties en transformaties doorlopen voordat ze worden opgeslagen in een indeling die is geoptimaliseerd voor efficiënte analyses. De termen brons (onbewerkt), zilver (gevalideerd) en goud (verrijkt) beschrijven de kwaliteit van de gegevens in elk van deze lagen.

Het is belangrijk om te weten dat deze medalsight-architectuur geen andere dimensionale modelleringstechnieken vervangt. Schema's en tabellen binnen elke laag kunnen verschillende vormen en normalisatiegraden aannemen, afhankelijk van de frequentie en aard van gegevensupdates en de downstream use cases voor de gegevens.

Organisaties kunnen gebruikmaken van databricks lakehouse om gevalideerde gegevenssets te maken en te onderhouden die toegankelijk zijn voor het hele bedrijf. Het toepassen van een organisatiementaliteit die is gericht op het cureren van gegevens als producten is een belangrijke stap bij het bouwen van een data lakehouse.

Onbewerkte gegevens opnemen in de bronslaag

De bronslaag bevat niet-gevalideerde gegevens. Gegevens die in de bronslaag worden opgenomen, worden doorgaans:

  • Onderhoudt de onbewerkte status van de gegevensbron.
  • Wordt incrementeel toegevoegd en groeit in de loop van de tijd.
  • Kan elke combinatie van streaming- en batchtransacties zijn.

Het behouden van de volledige, niet-verwerkte geschiedenis van elke gegevensset in een efficiënte opslagindeling biedt de mogelijkheid om elke status van een bepaald gegevenssysteem opnieuw te maken.

Aanvullende metagegevens (zoals namen van bronbestanden of het vastleggen van de tijd waarop de gegevens zijn verwerkt) kunnen worden toegevoegd aan gegevens over opname voor verbeterde detectie, beschrijving van de status van de brongegevensset en geoptimaliseerde prestaties in downstreamtoepassingen.

Gegevens valideren en ontdubbelen in de zilveren laag

Zoals u weet, bevat de bronslaag de volledige gegevensgeschiedenis in bijna onbewerkte staat, vertegenwoordigt de zilveren laag een gevalideerde, verrijkte versie van onze gegevens die kan worden vertrouwd voor downstreamanalyses.

Hoewel Databricks sterk gelooft in de lakehouse-visie op basis van bronzen, zilveren en gouden tafels, zal het eenvoudig implementeren van een zilveren laag onmiddellijk veel van de potentiële voordelen van het lakehouse ontgrendelen.

Voor elke gegevenspijplijn kan de zilveren laag meer dan één tabel bevatten.

Power Analytics met de gouden laag

Deze gouden gegevens zijn vaak zeer verfijnd en geaggregeerd, met gegevens die gebruikmaken van analyses, machine learning en productietoepassingen. Hoewel alle tabellen in het lakehouse een belangrijk doel dienen, vertegenwoordigen gouden tabellen gegevens die zijn getransformeerd in kennis, in plaats van alleen informatie.

Analisten zijn grotendeels afhankelijk van gouden tabellen voor hun kernverantwoordelijkheden en gegevens die worden gedeeld met een klant, worden zelden buiten dit niveau opgeslagen.

Updates voor deze tabellen worden voltooid als onderdeel van regelmatig geplande productieworkloads, waarmee u de kosten kunt beheren en service level agreements (SLA's) kunt gebruiken om gegevens nieuw te maken.

Hoewel het Lakehouse niet dezelfde impasseproblemen heeft die u in een datawarehouse voor ondernemingen kunt tegenkomen, worden gouden tabellen vaak opgeslagen in een afzonderlijke opslagcontainer om cloudlimieten voor gegevensaanvragen te voorkomen.

Over het algemeen moeten gebruikers, omdat aggregaties, joins en filtering worden verwerkt voordat gegevens naar de gouden laag worden geschreven, de queryprestaties met lage latentie op gegevens in gouden tabellen moeten zien.