Migrowanie aplikacji danych do usługi Azure Databricks

Ten artykuł zawiera wprowadzenie do migrowania istniejących aplikacji danych do usługi Azure Databricks. Usługa Azure Databricks zapewnia ujednolicone podejście umożliwiające pracę z danymi z wielu systemów źródłowych na jednej platformie.

Aby zapoznać się z omówieniem możliwości platformy, zobacz Co to jest usługa Azure Databricks?.

Aby uzyskać informacje na temat migrowania między wersjami środowiska Databricks Runtime, zobacz Przewodnik migracji środowiska Databricks Runtime.

Migrowanie zadań ETL do usługi Azure Databricks

Zadania platformy Apache Spark używane do wyodrębniania, przekształcania i ładowania danych z implementacji lokalnych lub natywnych dla chmury można migrować do usługi Azure Databricks, wykonując kilka kroków. Zobacz Adapt your exisiting Apache Spark code for Azure Databricks (Dostosowywanie kodu platformy Apache Spark dla usługi Azure Databricks).

Usługa Azure Databricks rozszerza funkcjonalność usługi Spark SQL przy użyciu wstępnie skonfigurowanych integracji typu open source, integracji partnerów i ofert produktów dla przedsiębiorstw. Jeśli obciążenia ETL są zapisywane w języku SQL lub Hive, możesz przeprowadzić migrację do usługi Azure Databricks z minimalnym refaktoryzowaniem. Dowiedz się więcej o ofertach sql usługi Azure Databricks:

Aby uzyskać szczegółowe instrukcje dotyczące migracji z różnych systemów źródłowych do usługi Azure Databricks, zobacz Migrowanie potoków ETL do usługi Azure Databricks.

Zastępowanie magazynu danych przedsiębiorstwa usługą Lakehouse

Usługa Azure Databricks zapewnia optymalną wartość i wydajność, gdy obciążenia są dopasowane do danych przechowywanych w usłudze Lakehouse. Wiele stosów danych przedsiębiorstwa obejmuje zarówno magazyn danych data lake, jak i magazyn danych przedsiębiorstwa, a organizacje tworzą złożone przepływy pracy ETL, aby starać się zachować synchronizację tych systemów i danych. Usługa Lakehouse umożliwia używanie tych samych danych przechowywanych w usłudze Data Lake w zapytaniach i systemach, które zwykle korzystają z oddzielnego magazynu danych. Aby uzyskać więcej informacji na temat lakehouse, zobacz Co to jest data lakehouse?. Aby uzyskać więcej informacji na temat magazynowania danych w usłudze Databricks, zobacz Co to jest magazynowanie danych w usłudze Azure Databricks?.

Migracja z magazynu danych przedsiębiorstwa do usługi Lakehouse zwykle polega na zmniejszeniu złożoności architektury danych i przepływów pracy, ale istnieją pewne zastrzeżenia i najlepsze rozwiązania, które należy wziąć pod uwagę podczas wykonywania tej pracy. Zobacz Migrowanie magazynu danych do usługi Databricks Lakehouse.

Ujednolicenie obciążeń uczenia maszynowego, nauki o danych i analizy

Ponieważ usługa Lakehouse zapewnia zoptymalizowany dostęp do plików danych opartych na chmurze za pośrednictwem zapytań tabel lub ścieżek plików, możesz wykonywać uczenie maszynowe, naukę o danych i analizę na pojedynczej kopii danych. Usługa Azure Databricks ułatwia przenoszenie obciążeń zarówno z narzędzi typu open source, jak i zastrzeżonych oraz utrzymuje zaktualizowane wersje wielu bibliotek typu open source używanych przez analityków i analityków danych.

Obciążenia biblioteki Pandas w notesach Jupyter można synchronizować i uruchamiać przy użyciu folderów Git usługi Databricks. Usługa Azure Databricks zapewnia natywną obsługę biblioteki pandas we wszystkich wersjach środowiska Databricks Runtime oraz konfiguruje wiele popularnych bibliotek uczenia maszynowego i uczenia głębokiego w środowisku Databricks Runtime for Machine Edukacja. W przypadku synchronizowania lokalnych obciążeń przy użyciu plików Git i obszarów roboczych w folderach Git można użyć tych samych ścieżek względnych dla danych i niestandardowych bibliotek znajdujących się w środowisku lokalnym.

Uwaga

Domyślnie usługa Azure Databricks obsługuje .ipynb rozszerzenia notesów Jupyter synchronizowane z folderami Git usługi Databricks, ale automatycznie konwertuje notesy Jupyter na notesy usługi Databricks podczas importowania z interfejsem użytkownika. Notesy usługi Databricks zapisują się za pomocą .py rozszerzenia, a więc mogą żyć równolegle z notesami Jupyter w repozytorium Git.