Infoworks

Ważne

Ta funkcja jest dostępna w publicznej wersji zapoznawczej.

Infoworks DataFoundry to zautomatyzowany system operacji i aranżacji danych przedsiębiorstwa, który działa natywnie w usłudze Azure Databricks i wykorzystuje pełne możliwości usługi Azure Databricks w celu zapewnienia łatwego rozwiązania do dołączania danych — ważnego pierwszego kroku w zakresie operacjonalizacji magazynu data lake. DataFoundry nie tylko automatyzuje pozyskiwanie danych, ale także automatyzuje kluczowe funkcje, które muszą towarzyszyć pozyskiwaniu w celu ustanowienia podstaw do analizy. Dołączanie danych za pomocą narzędzia DataFoundry automatyzuje:

  • Pozyskiwanie danych: ze wszystkich źródeł danych przedsiębiorstwa i zewnętrznych
  • Synchronizacja danych: CDC w celu zachowania synchronizacji danych ze źródłem
  • Zarządzanie danymi: katalogowanie, pochodzenie, zarządzanie metadanymi, inspekcja i historia

Poniżej przedstawiono kroki korzystania z rozwiązania Infoworks z usługą Azure Databricks.

Krok 1. Generowanie osobistego tokenu dostępu usługi Databricks

Usługa Infoworks uwierzytelnia się w usłudze Azure Databricks przy użyciu osobistego tokenu dostępu usługi Azure Databricks. Aby wygenerować osobisty token dostępu, postępuj zgodnie z instrukcjami w temacie Generowanie osobistego tokenu dostępu.

Krok 2. Konfigurowanie klastra w celu obsługi potrzeb związanych z integracją

Usługa Infoworks będzie zapisywać dane w ścieżce Azure Data Lake Storage, a klaster integracji usługi Azure Databricks odczytuje dane z tej lokalizacji. W związku z tym klaster integracji wymaga bezpiecznego dostępu do ścieżki Azure Data Lake Storage.

Zabezpieczanie dostępu do ścieżki Azure Data Lake Storage

Aby zabezpieczyć dostęp do danych w usłudze Azure Data Lake Storage (ADLS), możesz użyć klucza dostępu do konta usługi Azure Storage (zalecane) lub jednostki usługi platformy Azure.

Używanie klucza dostępu do konta usługi Azure Storage

Klucz dostępu konta magazynu można skonfigurować w klastrze integracji w ramach konfiguracji platformy Spark. Upewnij się, że konto magazynu ma dostęp do kontenera usługi ADLS i systemu plików używanego do przemieszczania danych oraz kontenera usługi ADLS i systemu plików, w którym chcesz zapisać tabele usługi Delta Lake. Aby skonfigurować klaster integracji do użycia klucza, wykonaj kroki opisane w Wprowadzenie z Azure Data Lake Storage Gen2.

Używanie jednostki usługi platformy Azure

Jednostkę usługi można skonfigurować w klastrze integracji usługi Azure Databricks w ramach konfiguracji platformy Spark. Upewnij się, że jednostka usługi ma dostęp do kontenera usługi ADLS używanego do przemieszczania danych i kontenera usługi ADLS, w którym chcesz zapisać tabele różnicowe. Aby skonfigurować klaster integracji do korzystania z jednostki usługi, wykonaj kroki opisane w temacie Uzyskiwanie dostępu do usługi ADLS Gen2 z jednostką usługi lub dostępem do usługi ADLS Gen1 zapomocą jednostki usługi.

Określanie konfiguracji klastra

  1. Ustaw wartość Tryb klastra na Standardowa.

  2. Ustaw wersję środowiska uruchomieniowego usługi Databricks na wersję środowiska uruchomieniowego usługi Databricks.

  3. Włącz automatyczne optymalizowanie , dodając następujące właściwości do konfiguracji platformy Spark:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Skonfiguruj klaster w zależności od potrzeb integracji i skalowania.

Aby uzyskać szczegółowe informacje o konfiguracji klastra, zobacz Konfigurowanie klastrów.

Zobacz Pobieranie szczegółów połączenia , aby uzyskać adres URL JDBC i ścieżkę HTTP.

Krok 3. Uzyskiwanie szczegółów połączenia JDBC i ODBC w celu nawiązania połączenia z klastrem

Aby połączyć klaster usługi Azure Databricks z usługą Infoworks, potrzebne są następujące właściwości połączenia JDBC/ODBC:

  • JDBC URL
  • HTTP Path (Ścieżka HTTP)

Krok 4. Pobieranie informacji dla usługi Azure Databricks

Przejdź do witryny Infoworks , aby dowiedzieć się więcej i uzyskać pokaz.