Inżynieria danych przy użyciu usługi Azure Databricks

Średni
Inżynier danych
Databricks

Dowiedz się, jak wykorzystać możliwości platformy Apache Spark i zaawansowane klastry działające na platformie Azure Databricks do uruchamiania dużych obciążeń inżynieryjnych danych w chmurze.

Wymagania wstępne

Brak

Moduły w ramach tej ścieżki szkoleniowej

Odkryj możliwości aplikacji Azure Databricks notes Apache Spark do przetwarzania ogromnych plików. Poznaj platformę Azure Databricks i zidentyfikuj typy zadań dobrze dopasowane do Apache Spark.

Poznaj architekturę klastra Azure Databricks Spark i zadań Spark.

Praca z dużymi ilościami danych z wielu źródeł w różnych formatach pierwotnych. Azure Databricks obsługuje dzienne funkcje obsługi danych, takie jak odczyty, zapis i zapytania.

Przetwarzanie danych w Azure Databricks odbywa się przez zdefiniowanie ramek danych do odczytywania i przetwarzania danych. Dowiedz się, jak wykonywać przekształcenia danych w ramce danych i wykonywać akcje w celu wyświetlenia przekształcone dane.

Poznaj różnicę między transformacją a akcją, z opóźnieniem i chętną oceną, transformacjami szerokimi i wąskimi oraz innymi optymalizacjami w Azure Databricks.

Użyj klasy Kolumna ramki danych w Azure Databricks, aby zastosować przekształcenia na poziomie kolumny, takie jak sortowanie, filtry i agregacje.

Za pomocą zaawansowanych operacji funkcji DataFrame można manipulować danymi, stosować agregacje oraz wykonywać operacje daty i Azure Databricks.

Poznaj składniki Azure Databricks i najlepsze rozwiązania dotyczące zabezpieczania obszaru roboczego za pomocą natywnych funkcji usługi Databricks oraz integrując się z usługami platformy Azure.

Dowiedz się, jak za pomocą usługi Delta Lake tworzyć, dołączać i przetwarzać dane w Apache Spark, korzystając z wbudowanych funkcji niezawodności i optymalizacji.

Dowiedz się, jak przesyłanie strumieniowe ze strukturą ułatwia przetwarzanie danych przesyłanych strumieniowo w czasie rzeczywistym oraz jak agregować dane w oknach czasu.

Użyj usług Delta Lakes jako warstwy optymalizacji na podstawie magazynu obiektów blob, aby zapewnić niezawodność i małe opóźnienia w ramach ujednoliconych potoków przesyłania strumieniowego i danych usługi Batch.

Azure Data Factory pomaga tworzyć przepływy pracy, które aranżują ruch i przekształcanie danych na dużą skalę. Integruj Azure Databricks potokami produkcyjnymi, wywołując notesy i biblioteki.

Ci/CID nie jest tylko dla deweloperów. Dowiedz się, jak Azure Databricks notesy w ramach kontroli wersji w Azure DevOps i kompilować potoki wdrażania w celu zarządzania procesem wydania.

Azure Databricks to tylko jedna z wielu zaawansowanych usług danych na platformie Azure. Dowiedz się, jak zintegrować Azure Synapse Analytics danymi w ramach architektury danych.

Poznaj najlepsze rozwiązania dotyczące administrowania obszarem roboczym, zabezpieczeń, narzędzi, integracji, środowiska uruchomieniowego usługi Databricks, ha/dr oraz klastrów w Azure Databricks.