Anslut till Infoworks

Artikel
03/01/2024

Viktigt!

Den här funktionen finns som allmänt tillgänglig förhandsversion.

Infoworks DataFoundry är ett automatiserat system för företagsdata och orkestrering som körs internt i Azure Databricks och utnyttjar den fulla kraften i Azure Databricks för att leverera en enkel lösning för dataregistrering – ett viktigt första steg för att operationalisera din datasjö. DataFoundry automatiserar inte bara datainmatning, utan automatiserar även de viktiga funktioner som måste medföljer inmatning för att skapa en grund för analys. Data onboarding med DataFoundry automatiserar:

Datainmatning: från alla företags- och externa datakällor
Datasynkronisering: CDC för att hålla data synkroniserade med källan
Datastyrning: katalogisering, ursprung, metadatahantering, granskning och historik

Här följer stegen för att använda Infoworks med Azure Databricks.

Steg 1: Generera en personlig Databricks-åtkomsttoken

Infoworks autentiserar med Azure Databricks med en personlig åtkomsttoken för Azure Databricks.

Kommentar

När du autentiserar med automatiserade verktyg, system, skript och appar rekommenderar Databricks att du använder personliga åtkomsttoken som tillhör tjänstens huvudnamn i stället för arbetsyteanvändare. Information om hur du skapar token för tjänstens huvudnamn finns i Hantera token för tjänstens huvudnamn.

Steg 2: Konfigurera ett kluster för att stödja integrationsbehov

Infoworks skriver data till en Azure Data Lake Storage-sökväg och Azure Databricks-integreringsklustret läser data från den platsen. Därför kräver integreringsklustret säker åtkomst till Azure Data Lake Storage-sökvägen.

Säker åtkomst till en Azure Data Lake Storage-sökväg

För att skydda åtkomsten till data i Azure Data Lake Storage (ADLS) kan du använda en Åtkomstnyckel för Azure-lagringskonto (rekommenderas) eller ett Microsoft Entra ID-tjänsthuvudnamn.

Använda åtkomstnyckeln för ett Azure Storage-konto

Du kan konfigurera en åtkomstnyckel för lagringskontot i integrationsklustret som en del av Spark-konfigurationen. Kontrollera att lagringskontot har åtkomst till ADLS-containern och filsystemet som används för mellanlagring av data och ADLS-containern och filsystemet där du vill skriva Delta Lake-tabellerna. Om du vill konfigurera integreringsklustret att använda nyckeln följer du stegen i Anslut till Azure Data Lake Storage Gen2 och Blob Storage.

Använda tjänstens huvudnamn för Microsoft Entra-ID

Du kan konfigurera ett huvudnamn för tjänsten i Azure Databricks-integreringsklustret som en del av Spark-konfigurationen. Kontrollera att tjänstens huvudnamn har åtkomst till den ADLS-container som används för mellanlagringsdata och den ADLS-container där du vill skriva Delta-tabellerna. Följ stegen i Access ADLS Gen2 med tjänstens huvudnamn för att konfigurera integreringsklustret att använda tjänstens huvudnamn.

Ange klusterkonfigurationen

Ange Klusterläge till Standard.
Ange Databricks Runtime Version till en Databricks-körningsversion.
Aktivera optimerade skrivningar och automatisk komprimering genom att lägga till följande egenskaper i Spark-konfigurationen:
```
spark.databricks.delta.optimizeWrite.enabled true
spark.databricks.delta.autoCompact.enabled true
```
Konfigurera klustret beroende på dina integrerings- och skalningsbehov.

Information om klusterkonfiguration finns i Referens för beräkningskonfiguration.

Se Hämta anslutningsinformation för en Azure Databricks-beräkningsresurs för stegen för att hämta JDBC-URL:en och HTTP-sökvägen.

Steg 3: Hämta JDBC- och ODBC-anslutningsinformation för att ansluta till ett kluster

För att ansluta ett Azure Databricks-kluster till Infoworks behöver du följande JDBC/ODBC-anslutningsegenskaper:

JDBC-URL
HTTP-sökväg

Steg 4: Hämta Infoworks för Azure Databricks

Gå till Infoworks för att lära dig mer och få en demo.

Ytterligare resurser

Support