Share via


Gegevenstoepassingen migreren naar Azure Databricks

Dit artikel bevat een inleiding tot het migreren van bestaande gegevenstoepassingen naar Azure Databricks. Azure Databricks biedt een uniforme benadering waarmee u met gegevens uit veel bronsystemen op één platform kunt werken.

Zie Wat is Azure Databricks? voor een overzicht van platformmogelijkheden.

Zie de Databricks Runtime-migratiehandleiding voor informatie over het migreren tussen Databricks Runtime-versies.

ETL-taken migreren naar Azure Databricks

Met slechts enkele stappen kunt u Apache Spark-taken migreren die worden gebruikt voor het extraheren, transformeren en laden van gegevens uit on-premises of cloudeigen implementaties naar Azure Databricks. Zie Uw bestaande Apache Spark-code aanpassen voor Azure Databricks.

Azure Databricks breidt de functionaliteit van Spark SQL uit met vooraf geconfigureerde opensource-integraties, partnerintegraties en bedrijfsproductaanbiedingen. Als uw ETL-workloads zijn geschreven in SQL of Hive, kunt u migreren naar Azure Databricks met minimale herstructurering. Meer informatie over Azure Databricks SQL-aanbiedingen:

Zie ETL-pijplijnen migreren naar Azure Databricks voor specifieke instructies over het migreren van verschillende bronsystemen naar Azure Databricks.

Uw zakelijke datawarehouse vervangen door een lakehouse

Azure Databricks biedt optimale waarde en prestaties wanneer workloads zijn afgestemd op gegevens die zijn opgeslagen in lakehouse. Veel zakelijke gegevensstacks bevatten zowel een data lake als een datawarehouse voor ondernemingen en organisaties maken complexe ETL-werkstromen om deze systemen en gegevens synchroon te houden. Met lakehouse kunt u dezelfde gegevens gebruiken, opgeslagen in de data lake, voor query's en systemen die doorgaans afhankelijk zijn van een afzonderlijk datawarehouse. Zie Wat is een data lakehouse?voor meer informatie over het lakehouse. Zie Wat is datawarehousing in Azure Databricks ? voor meer informatie over datawarehousing in Databricks.

Het migreren van een datawarehouse van een onderneming naar lakehouse omvat over het algemeen het verminderen van de complexiteit van uw gegevensarchitectuur en werkstromen, maar er zijn enkele opmerkingen en best practices waarmee u rekening moet houden bij het voltooien van dit werk. Zie Uw datawarehouse migreren naar databricks lakehouse.

Uw ML-, data science- en analyseworkloads samenvoegen

Omdat lakehouse geoptimaliseerde toegang biedt tot cloudgegevensbestanden via tabelquery's of bestandspaden, kunt u ML, gegevenswetenschap en analyses uitvoeren op één kopie van uw gegevens. Met Azure Databricks kunt u eenvoudig workloads verplaatsen van zowel open source- als bedrijfseigen hulpprogramma's en bijgewerkte versies van veel opensource-bibliotheken onderhouden die worden gebruikt door analisten en gegevenswetenschappers.

Pandas-workloads in Jupyter-notebooks kunnen worden gesynchroniseerd en uitgevoerd met behulp van Databricks Git-mappen. Azure Databricks biedt systeemeigen ondersteuning voor pandas in alle Databricks Runtime-versies en configureert veel populaire ML- en Deep Learning-bibliotheken in Databricks Runtime voor Machine Learning. Als u uw lokale workloads synchroniseert met behulp van Git- en werkruimtebestanden in Git-mappen, kunt u dezelfde relatieve paden gebruiken voor gegevens en aangepaste libaries die aanwezig zijn in uw lokale omgeving.

Notitie

Azure Databricks onderhoudt .ipynb standaard extensies voor Jupyter-notebooks die zijn gesynchroniseerd met Databricks Git-mappen, maar converteert automatisch Jupyter-notebooks naar Databricks-notebooks wanneer deze worden geïmporteerd met de gebruikersinterface. Databricks-notebooks worden opgeslagen met een .py extensie en kunnen dus naast Jupyter-notebooks in een Git-opslagplaats worden gebruikt.