översikt Azure Databricks arkitektur

Databricks Unified Data Analytics Platform, från de ursprungliga skaparna av Apache Spark, gör det möjligt för datateam att samarbeta för att lösa några av världens svåraste problem.

Högnivåarkitektur

Azure Databricks är strukturerad för att möjliggöra säkert tvärfunktionellt teamsamarbete samtidigt som en stor mängd backend-tjänster hanteras av Azure Databricks så att du kan fokusera på dina datavetenskaps-, dataanalys- och datateknikuppgifter.

Azure Databricks fungerar utanför ett kontrollplan och ett dataplan.

  • Kontrollplanet innehåller de backend-tjänster som Azure Databricks hanterar i sitt eget Azure-konto. Notebook-kommandon och många andra arbetsytekonfigurationer lagras i kontrollplanet och krypteras i vila.
  • Dataplanet hanteras av ditt Azure-konto och är där dina data finns. Det är också här som data bearbetas. Du kan använda Azure Databricks-anslutningsappar så att dina kluster kan ansluta till externa datakällor utanför ditt Azure-konto för att mata in data eller för lagring. Du kan också mata in data från externa strömmande datakällor,till exempel händelsedata, strömmande data, IoT-data med mera.

Även om arkitekturer kan variera beroende på anpassade konfigurationer (till exempel när du har distribuerat en Azure Databricks-arbetsyta till ditt eget virtuella nätverk, även kallat VNet-injection), representerar följande arkitekturdiagram den vanligaste strukturen och flödet av data för Azure Databricks.

Databricks-arkitektur

Mer arkitekturinformation finns i Hantera virtuella nätverk.

Dina data finns alltid på ditt Azure-konto i dataplanet och i dina egna datakällor, inte kontrollplanet, så du behåller kontrollen och ägarskapet för dina data.

Jobbresultaten finns i lagringen i ditt konto. Interaktiva notebook-resultat lagras i en kombination av kontrollplanet (partiella resultat för presentation i användargränssnittet) och din Azure-lagring.

Anteckning

Om du vill att interaktiva notebook-resultat endast ska lagras i din molnkontolagring kan du be din Databricks-representant att aktivera interaktiva notebook-resultat i kundkontot för din arbetsyta. Observera att vissa metadata om resultat, till exempel diagramkolumnnamn, fortsätter att lagras i kontrollplanet. Den här funktionen finns som allmänt tillgänglig förhandsversion.