Wat is datawarehousing in Azure Databricks?

Artikel
04/16/2024

Datawarehousing verwijst naar het verzamelen en opslaan van gegevens uit meerdere bronnen, zodat deze snel kunnen worden geopend voor zakelijke inzichten en rapportage. Dit artikel bevat belangrijke concepten voor het bouwen van een datawarehouse in uw Data Lakehouse.

Datawarehousing in uw lakehouse

De lakehouse-architectuur en Databricks SQL bieden mogelijkheden voor datawarehousing in de cloud aan uw data lakes. Met behulp van vertrouwde gegevensstructuren, relaties en beheerhulpprogramma's kunt u een zeer goed presterend, rendabel datawarehouse modelleren dat rechtstreeks op uw data lake wordt uitgevoerd. Zie Wat is een data lakehouse voor meer informatie ?

Lakehouse architecture with a top layer that includes data warehousing, data engineering, data streaming, and data science and ML

Net als bij een traditioneel datawarehouse modelleerde u gegevens op basis van zakelijke vereisten en dient u deze vervolgens aan uw eindgebruikers voor analyse en rapporten. In tegenstelling tot een traditioneel datawarehouse kunt u voorkomen dat uw zakelijke analysegegevens worden gesilot of redundante kopieën worden gemaakt die snel verlopen.

Door een datawarehouse in uw lakehouse te bouwen, kunt u al uw gegevens in één systeem opnemen en kunt u profiteren van functies zoals Unity Catalog en Delta Lake.

Unity Catalog voegt een geïntegreerd governancemodel toe, zodat u de toegang tot gegevens kunt beveiligen en controleren en herkomstinformatie over downstreamtabellen kunt bieden. Delta Lake voegt ACID-transacties en schemaontwikkeling toe, onder andere krachtige hulpprogramma's om uw gegevens betrouwbaar, schaalbaar en kwalitatief goed te houden.

Wat is Databricks SQL?

Notitie

Databricks SQL Serverless is niet beschikbaar in Azure China. Databricks SQL is niet beschikbaar in Azure Government-regio's.

Databricks SQL is de verzameling services die datawarehousingmogelijkheden en -prestaties bieden aan uw bestaande data lakes. Databricks SQL ondersteunt open indelingen en standaard ANSI SQL. Met een in-platform SQL-editor en dashboardhulpprogramma's kunnen teamleden rechtstreeks in de werkruimte samenwerken met andere Databricks-gebruikers. Databricks SQL kan ook worden geïntegreerd met verschillende hulpprogramma's, zodat analisten query's en dashboards in hun favoriete omgevingen kunnen schrijven zonder dat ze zich hoeven aan te passen aan een nieuw platform.

Databricks SQL biedt algemene rekenresources die worden uitgevoerd op basis van de tabellen in lakehouse. Databricks SQL wordt mogelijk gemaakt door SQL-warehouses en biedt schaalbare SQL-rekenresources die losgekoppeld zijn van de opslag.

Zie Wat is een SQL Warehouse? voor meer informatie over de standaardinstellingen en opties van SQL Warehouse.

Databricks SQL kan worden geïntegreerd met Unity Catalog, zodat u gegevensassets op één locatie kunt detecteren, controleren en beheren. Zie Wat is Unity Catalog voor meer informatie?

Gegevensmodellering in Azure Databricks

Een lakehouse ondersteunt verschillende modelleringsstijlen. In de volgende afbeelding ziet u hoe gegevens worden gecureerd en gemodelleerd terwijl ze door verschillende lagen van een lakehouse worden verplaatst.

A diagram showing various data models at each level of the medallion lakehouse archtecture.

Medal medal architecture

De medal machtigingenarchitectuur is een gegevensontwerppatroon dat een reeks incrementele verfijnde gegevenslagen beschrijft die een basisstructuur in het lakehouse bieden. De brons-, zilver- en gouden lagen geven aan dat de gegevenskwaliteit op elk niveau wordt verhoogd, met goud dat de hoogste kwaliteit vertegenwoordigt. Zie Wat is de medaille-lakehousearchitectuur voor meer informatie.

In een lakehouse kan elke laag een of meer tabellen bevatten. Het datawarehouse wordt gemodelleerd op de zilveren laag en voedt gespecialiseerde datamarts in de gouden laag.

Bronslaag

Gegevens kunnen uw lakehouse in elke indeling en via elke combinatie van batch- of stoomtransacties invoeren. De bronslaag biedt de landingsruimte voor al uw onbewerkte gegevens in de oorspronkelijke indeling. Deze gegevens worden geconverteerd naar Delta-tabellen.

Zilveren laag

De zilveren laag brengt de gegevens uit verschillende bronnen samen. Voor het deel van het bedrijf dat zich richt op data science- en machine learning-toepassingen, begint u met het cureren van zinvolle gegevensassets. Dit proces wordt vaak gemarkeerd door een focus op snelheid en flexibiliteit.

De zilveren laag is ook waar u gegevens uit verschillende bronnen zorgvuldig kunt integreren om een datawarehouse te bouwen in overeenstemming met uw bestaande bedrijfsprocessen. Deze gegevens volgen vaak een derde normaal formulier (3NF) of Data Vault-model. Door beperkingen voor primaire en refererende sleutels op te geven, kunnen eindgebruikers tabelrelaties begrijpen wanneer ze Unity Catalog gebruiken. Uw datawarehouse moet fungeren als de enige bron van waarheid voor uw datamarts.

Het datawarehouse zelf is schema-on-write en atomisch. Het is geoptimaliseerd voor wijzigingen, zodat u het datawarehouse snel kunt aanpassen aan uw huidige behoeften wanneer uw bedrijfsprocessen veranderen of zich ontwikkelen.

Gouden laag

De gouden laag is de presentatielaag, die een of meer datamarts kan bevatten. Datamarts zijn vaak dimensionale modellen in de vorm van een set gerelateerde tabellen die een specifiek bedrijfsperspectief vastleggen.

De gouden laag bevat ook afdelings- en data science-sandboxes om selfserviceanalyses en gegevenswetenschap in de hele onderneming mogelijk te maken. Als u deze sandboxs en hun eigen afzonderlijke rekenclusters oplevert, voorkomt u dat de zakelijke teams kopieën van gegevens buiten lakehouse maken.

Volgende stap

Zie Inleiding tot het goed ontworpen Data Lakehouse voor meer informatie over de principes en best practices voor het implementeren en gebruiken van een lakehouse met Databricks.