Delen via


Uw datawarehouse migreren naar databricks lakehouse

In dit artikel worden enkele overwegingen en opmerkingen beschreven waarmee u rekening moet houden bij het vervangen van uw datawarehouse voor uw bedrijf door databricks lakehouse. De meeste workloads, query's en dashboards die zijn gedefinieerd in enterprise datawarehouses, kunnen worden uitgevoerd met minimale codeherstructurering zodra beheerders de eerste gegevensmigratie en governanceconfiguratie hebben voltooid. Het migreren van uw datawarehousingworkloads naar Azure Databricks gaat niet om het elimineren van datawarehousing, maar het maakt uw gegevensecosysteem beter. Zie Wat is datawarehousing in Azure Databricks ? voor meer informatie over datawarehousing in Databricks.

Veel Apache Spark-workloads extraheren, transformeren en laden (ETL)-gegevens uit bronsystemen in datawarehouses om downstreamanalyses uit te voeren. Door uw zakelijke datawarehouse te vervangen door een lakehouse, kunnen analisten, gegevenswetenschappers en data engineers tegen dezelfde tabellen in hetzelfde platform werken, waardoor de totale complexiteit, onderhoudsvereisten en de totale eigendomskosten worden verminderd. Zie Wat is een Data Lakehouse? Zie Wat is datawarehousing in Azure Databricks ? voor meer informatie over datawarehousing in Databricks.

Gegevens laden in lakehouse

Azure Databricks biedt een aantal hulpprogramma's en mogelijkheden waarmee u eenvoudig gegevens naar lakehouse kunt migreren en ETL-taken kunt configureren om gegevens uit diverse gegevensbronnen te laden. In de volgende artikelen worden deze hulpprogramma's en opties geïntroduceerd:

Hoe verschilt het Databricks Data Intelligence Platform van een enterprise-datawarehouse?

Het Databricks Data Intelligence Platform is gebouwd op Apache Spark, Unity Catalog en Delta Lake, en biedt systeemeigen ondersteuning voor big data-workloads voor analyse, ML en data engineering. Alle bedrijfsgegevenssystemen hebben iets andere transactionele garanties, indexerings- en optimalisatiepatronen en SQL-syntaxis. Enkele van de grootste verschillen die u kunt ontdekken, zijn onder andere:

  • Alle transacties zijn tabelniveau. Er zijn geen transacties, vergrendelingen of garanties op databaseniveau.
  • Er zijn geen BEGIN en END constructies, wat betekent dat elke instructie of query wordt uitgevoerd als een afzonderlijke transactie.
  • Voor namen van drie lagen wordt gebruikgemaakt catalog.schema.table van patroon. De termen database en schema zijn synoniem voor verouderde Apache Spark-syntaxis.
  • Primaire sleutel- en refererende-sleutelbeperkingen zijn alleen informatief. Beperkingen kunnen alleen worden afgedwongen op tabelniveau. Zie Beperkingen voor Azure Databricks.
  • Systeemeigen gegevenstypen die worden ondersteund in Azure Databricks en Delta Lake kunnen enigszins verschillen van bronsystemen. De vereiste precisie voor numerieke typen moet duidelijk worden aangegeven voordat doeltypen worden gekozen.

De volgende artikelen bieden aanvullende context voor belangrijke overwegingen: