Infoworks

Belangrijk

Deze functie is beschikbaar als openbare preview.

Infoworks DataFoundry is een geautomatiseerd systeem voor ondernemingsgegevensbewerkingen en -orchestration dat systeemeigen wordt uitgevoerd op Azure Databricks en maakt gebruik van de volledige kracht van Azure Databricks om een eenvoudige oplossing te bieden voor het onboarden van gegevens. Dit is een belangrijke eerste stap bij het operationeel maken van uw data lake. DataFoundry automatiseert niet alleen de opname van gegevens, maar automatiseert ook de belangrijkste functionaliteit die bij de opname moet komen, om een basis te leggen voor analyse. Het onboarden van gegevens met DataFoundry automatiseert:

  • Gegevens opnemen: van alle bedrijfs- en externe gegevensbronnen
  • Gegevenssynchronisatie: CDC om gegevens gesynchroniseerd te houden met de bron
  • Gegevensbeheer: catalogiseren, gegevensverleden, metagegevensbeheer, controle en geschiedenis

Hier volgen de stappen voor het gebruik van Infoworks met Azure Databricks.

Stap 1: een persoonlijk Databricks-toegang token genereren

Infoworks verifieert met Azure Databricks met behulp van Azure Databricks persoonlijke toegangsken. Volg de instructies in Generate a personal access token (Een persoonlijk toegang token genereren) om een persoonlijk toegang token te genereren.

Stap 2: een cluster instellen ter ondersteuning van de integratiebehoeften

Infoworks schrijft gegevens naar een Azure Data Lake Storage en het Azure Databricks-integratiecluster leest gegevens van die locatie. Daarom vereist het integratiecluster beveiligde toegang tot het Azure Data Lake-Storage pad.

Toegang tot een Azure Data Lake-Storage beveiligen

Als u de toegang tot gegevens in Azure Data Lake Storage (ADLS) wilt beveiligen, kunt u een toegangssleutel voor het Azure-opslagaccount gebruiken (aanbevolen) of een Azure-service-principal.

Een toegangssleutel voor een Azure-opslagaccount gebruiken

U kunt een toegangssleutel voor een opslagaccount configureren op het integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat het opslagaccount toegang heeft tot de ADLS-container en het bestandssysteem die worden gebruikt voor faseringsgegevens en de ADLS-container en het bestandssysteem waar u de Delta Lake-tabellen wilt schrijven. Volg de stappen in Aan de slag met Azure Data Lake Storage Gen2 om het integratiecluster te configureren voor het gebruik van de sleutel.

Een Azure-service-principal gebruiken

U kunt een service-principal configureren op Azure Databricks-integratiecluster als onderdeel van de Spark-configuratie. Zorg ervoor dat de service-principal toegang heeft tot de ADLS-container die wordt gebruikt voor faseringsgegevens en de ADLS-container waar u de Delta-tabellen wilt schrijven. Als u het integratiecluster wilt configureren voor het gebruik van de service-principal, volgt u de stappen in Toegang tot ADLS Gen2 met service-principal of Access ADLS Gen1 met service-principal.

De clusterconfiguratie opgeven

  1. Stel Clustermodus in op Standaard.

  2. Stel Databricks Runtime versie in op een Databricks-runtimeversie.

  3. Schakel Automatisch optimaliseren in door de volgende eigenschappen toe te voegen aan uw Spark-configuratie:

    spark.databricks.delta.optimizeWrite.enabled true
    spark.databricks.delta.autoCompact.enabled true
    
  4. Configureer uw cluster afhankelijk van uw integratie- en schaalbehoeften.

Zie Clusters configureren voor meer informatie over clusterconfiguratie.

Zie Serverhostnaam, poort, HTTP-pad en JDBC-URL verkrijgen voor de stappen voor het verkrijgen van de JDBC-URL en het HTTP-pad.

Stap 3: JDBC- en ODBC-verbindingsgegevens verkrijgen om verbinding te maken met een cluster

Als u een Azure Databricks wilt verbinden met Infoworks, hebt u de volgende JDBC-/ODBC-verbindingseigenschappen nodig:

  • JDBC-URL
  • HTTP-pad

Stap 4: Infoworks voor Azure Databricks

Ga naar Infoworks voor meer informatie en een demo.