Vad är arkitekturen i medallion lakehouse?

Arkitekturen medallion beskriver en serie datalager som anger kvaliteten på data som lagras i lakehouse. Databricks rekommenderar att du använder en metod med flera lager för att skapa en enda sanningskälla för företagets dataprodukter. Den här arkitekturen garanterar atomitet, konsekvens, isolering och hållbarhet när data passerar genom flera lager av valideringar och transformeringar innan de lagras i en layout som är optimerad för effektiv analys. Termerna brons (rå), silver (validerad) och guld (berikad) beskriver kvaliteten på data i vart och ett av dessa lager.

Observera att den här medaljongarkitekturen inte ersätter andra dimensionella modelleringstekniker. Scheman och tabeller i varje lager kan ha olika former och grader av normalisering beroende på frekvensen och typen av datauppdateringar och de underordnade användningsfallen för data.

Organisationer kan använda Databricks lakehouse för att skapa och underhålla verifierade datauppsättningar som är tillgängliga i hela företaget. Att anta ett organisationstänk som fokuserar på att kurera data som produkter är ett viktigt steg för att framgångsrikt skapa ett datasjöhus.

Mata in rådata till bronsskiktet

Bronsskiktet innehåller ovaliderade data. Data som matas in i bronsskiktet är vanligtvis:

  • Underhåller datakällans rådatatillstånd.
  • Läggs till stegvis och växer med tiden.
  • Kan vara valfri kombination av strömnings- och batchtransaktioner.

Om du behåller den fullständiga, obearbetade historiken för varje datauppsättning i ett effektivt lagringsformat kan du återskapa alla tillstånd i ett visst datasystem.

Ytterligare metadata (till exempel källfilnamn eller registrering av tidsdata som bearbetades) kan läggas till i data vid inmatning för förbättrad identifiering, beskrivning av källdatauppsättningens tillstånd och optimerad prestanda i underordnade program.

Verifiera och deduplicera data i silverskiktet

Kom ihåg att även om bronsskiktet innehåller hela datahistoriken i nästan obearbetat tillstånd representerar silverskiktet en validerad, berikad version av våra data som kan vara betrodd för nedströmsanalys.

Medan Databricks tror starkt på lakehouse-visionen som drivs av brons-, silver- och guldbord, kommer implementeringen av ett silverskikt effektivt omedelbart att låsa upp många av de potentiella fördelarna med lakehouse.

För alla datapipelines kan silverskiktet innehålla mer än en tabell.

Power Analytics med guldskiktet

Dessa gulddata är ofta mycket förfinade och aggregerade och innehåller data som driver analys-, maskininlärnings- och produktionsprogram. Alla tabeller i lakehouse bör ha ett viktigt syfte, men guldtabeller representerar data som har omvandlats till kunskap, snarare än bara information.

Analytiker förlitar sig till stor del på guldtabeller för sitt kärnansvar, och data som delas med en kund skulle sällan lagras utanför den här nivån.

Uppdateringar till dessa tabeller slutförs som en del av regelbundet schemalagda produktionsarbetsbelastningar, vilket hjälper till att kontrollera kostnader och gör det möjligt att upprätta serviceavtal (SLA) för data freshness.

Även om lakehouse inte har samma dödlägesproblem som du kan stöta på i ett företags informationslager, lagras guldtabeller ofta i en separat lagringscontainer för att undvika molngränser för databegäranden.

Eftersom sammansättningar, kopplingar och filtrering hanteras innan data skrivs till guldskiktet bör användarna i allmänhet se frågeprestanda med låg svarstid på data i guldtabeller.