Jak działa usługa Azure Data Factory

Ukończone

W tym miejscu dowiesz się więcej o składnikach i połączonych systemach usługi Azure Data Factory. Dowiesz się również więcej o tym, jak to działa. Pomoże to określić, jak najlepiej wykorzystać usługę Azure Data Factory do spełnienia wymagań organizacji.

Azure Data Factory to zbiór połączonych systemów, które łączą się w celu zapewnienia kompleksowej platformy analizy danych. W tej lekcji poznasz następujące funkcje usługi Azure Data Factory:

  • Łączenie i zbieranie
  • Przekształcanie i wzbogacanie
  • Ciągła integracja i ciągłe dostarczanie (CI/CD) i publikowanie
  • Monitorowanie

Poznasz również kluczowe składniki usługi Azure Data Factory. Są to:

  • Pipelines
  • Działania
  • Zestawy danych
  • Połączone usługi
  • Przepływy danych
  • Środowiska Integration Runtime

Funkcje usługi Azure Data Factory

Usługa Azure Data Factory składa się z kilku funkcji, które łączą się w celu zapewnienia inżynierom danych kompletnej platformy analizy danych.

Łączenie i zbieranie

Pierwszą częścią procesu jest zebranie wymaganych danych z odpowiednich źródeł danych. Mogą one znajdować się w różnych lokalizacjach, w tym w źródłach lokalnych i w chmurze. Dane mogą być następujące:

  • Dane ustrukturyzowane
  • Dane nieustrukturyzowane
  • Dane częściowo ustrukturyzowane

Ponadto te różne dane mogą pojawiać się z różnymi szybkościami i interwałami. Za pomocą usługi Azure Data Factory możesz użyć działania kopiowania, aby przenieść dane z różnych źródeł do jednego scentralizowanego magazynu danych w chmurze. Po skopiowaniu danych użyjesz innych systemów, aby je przekształcić i przeanalizować.

Działanie kopiowania wykonuje następujące ogólne kroki:

  1. Odczytywanie danych ze źródłowego magazynu danych.

  2. Wykonaj następujące zadania dotyczące danych:

    • Serializacja/deserializacja
    • Kompresja/dekompresja
    • Mapowanie kolumn

    Uwaga

    Mogą istnieć dodatkowe zadania.

  3. Zapisywanie danych w docelowym magazynie danych (nazywanym ujściem).

Ten proces jest podsumowany na poniższej ilustracji:

Graphic that depicts the preceding process.

Przekształcanie i wzbogacanie

Po pomyślnym skopiowaniu danych do centralnej lokalizacji opartej na chmurze można przetwarzać i przekształcać dane zgodnie z potrzebami. W tym celu użyjesz przepływów danych mapowania usługi Azure Data Factory. Przepływy danych umożliwiają tworzenie grafów przekształcania danych uruchamianych na platformie Spark. Nie musisz jednak rozumieć klastrów Spark ani programowania platformy Spark.

Napiwek

Chociaż nie jest to konieczne, możesz wolisz ręcznie kodować przekształcenia. Jeśli tak, usługa Azure Data Factory obsługuje działania zewnętrzne na potrzeby uruchamiania przekształceń.

Ciągła integracja/ciągłe wdrażanie i publikowanie

Obsługa ciągłej integracji/ciągłego wdrażania umożliwia tworzenie i dostarczanie procesów ETL przyrostowo przed opublikowaniem. Usługa Azure Data Factory zapewnia ciągłą integrację/ciągłe wdrażanie potoków danych przy użyciu:

  • Azure DevOps
  • GitHub

Uwaga

Ciągła integracja oznacza automatyczne testowanie każdej zmiany wprowadzonej w bazie kodu tak szybko, jak to możliwe. Ciągłe dostarczanie jest zgodne z tym testem i wypycha zmiany do systemu przejściowego lub produkcyjnego.

Po uściśleniu danych pierwotnych w usłudze Azure Data Factory możesz załadować dane do niezależnie od tego, do którego aparatu analitycznego użytkownicy biznesowi mogą uzyskiwać dostęp z narzędzi do analizy biznesowej, w tym:

  • Azure Synapse Analytics
  • Azure SQL Database
  • Azure Cosmos DB

Monitorowanie

Po pomyślnym utworzeniu i wdrożeniu potoku integracji danych ważne jest, aby monitorować zaplanowane działania i potoki. Umożliwia to śledzenie współczynników sukcesów i niepowodzeń. Usługa Azure Data Factory zapewnia obsługę monitorowania potoków przy użyciu jednego z następujących elementów:

  • Azure Monitor
  • Interfejs API
  • PowerShell
  • Dzienniki usługi Azure Monitor
  • Panele kondycji w witrynie Azure Portal

Składniki usługi Azure Data Factory

Usługa Azure Data Factory składa się ze składników opisanych w poniższej tabeli:

Składnik opis
Pipelines Logiczne grupowanie działań, które wykonują określoną jednostkę pracy. Te działania razem wykonują zadanie. Zaletą korzystania z potoku jest to, że można łatwiej zarządzać działaniami jako zestawem zamiast jako poszczególnymi elementami.
Działania Pojedynczy krok przetwarzania w potoku. Usługa Azure Data Factory obsługuje trzy typy działań: przenoszenie danych, przekształcanie danych i działania sterowania.
Zestawy danych Reprezentują struktury danych w magazynach danych. Wskazują one (lub odwołują się) do danych, które mają być używane w działaniach jako dane wejściowe lub wyjściowe.
Połączone usługi Zdefiniuj wymagane informacje o połączeniu wymagane przez usługę Azure Data Factory do łączenia się z zasobami zewnętrznymi, takimi jak źródło danych. Usługa Azure Data Factory używa tych elementów do dwóch celów: do reprezentowania magazynu danych lub zasobu obliczeniowego.
Przepływy danych Umożliwiaj inżynierom danych opracowywanie logiki przekształcania danych bez konieczności pisania kodu. Przepływy danych są uruchamiane jako działania w potokach usługi Azure Data Factory, które używają skalowanych w poziomie klastrów platformy Apache Spark.
Środowiska Integration Runtime Usługa Azure Data Factory korzysta z infrastruktury obliczeniowej, aby zapewnić następujące możliwości integracji danych w różnych środowiskach sieciowych: przepływ danych, przenoszenie danych, wysyłanie działań i wykonywanie pakietów SSIS. W usłudze Azure Data Factory środowisko Integration Runtime zapewnia most między działaniem a połączonymi usługami.

Jak wskazano na poniższej ilustracji, te składniki współpracują ze sobą, aby zapewnić kompletną platformę dla inżynierów danych. Za pomocą usługi Data Factory można wykonywać następujące czynności:

  • Ustaw wyzwalacze na żądanie i zaplanuj przetwarzanie danych na podstawie Twoich potrzeb.
  • Skojarz potok z wyzwalaczem lub ręcznie uruchom go w miarę potrzeb i w razie potrzeby.
  • Połączenie z połączonymi usługami (takimi jak lokalne aplikacje i dane) lub usługami platformy Azure za pośrednictwem środowisk Integration Runtime.
  • Monitoruj wszystkie uruchomienia potoku natywnie w środowisku użytkownika usługi Azure Data Factory lub przy użyciu usługi Azure Monitor.

Graphic that depicts the interaction of the components described in the preceding table.