Vad är Azure Databricks-arbetsyta?

Azure Databricks arbets ytan är en analys plattform som baseras på Apache Spark. Azure Databricks arbets ytan är integrerad med Azure för att tillhandahålla ett klick, effektiviserade arbets flöden och en interaktiv arbets yta som gör det möjligt att samar beta mellan data tekniker, data forskare och Machine Learning-tekniker.

Vad är Azure Databricks?

För en stor data pipeline matas data (RAW eller strukturerad) in i Azure via Azure Data Factory i batchar eller strömmas i nära real tid med Apache Kafka, Event Hub eller IoT Hub. Dessa data hamnar i en datasjö för långsiktig beständig lagring i Azure Blob Storage eller Azure Data Lake Storage. Som en del av ditt analysarbetsflöde använder du Azure Databricks för att läsa data från flera datakällor såsom Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB eller Azure SQL Data Warehouse och omvandlar dem till banbrytande insikter med hjälp av Spark.

Databricks-pipeline

Apache Spark Analytics-plattform

Azure Databricks arbets ytan utgörs av de fullständiga teknikerna och funktionerna med öppen källkod Apache Spark kluster. Spark i Azure Databricks-arbetsytan innehåller följande komponenter:

Apache Spark i Azure Databricks

  • Spark SQL och DataFrames: Spark SQL är Spark-modulen för att arbeta med strukturerade data. En DataFrame är en distribuerad datasamling som har ordnats i namngivna kolumner. Begreppsmässigt motsvarar den en tabell i en relationsdatabas eller en dataram i R/Python.

  • Strömning: Realtidsbearbetning av data och analys för analysprogram och interaktiva program. Integreras med HDFS, Flume och Kafka.

  • MLlib: Machine Learning bibliotek som består av vanliga Learning-algoritmer och-verktyg, inklusive klassificering, regression, klustring, samordnad filtrering, Dimensional reducering, samt underliggande optimerings primitiver.

  • GraphX: Diagram och diagramberäkning för ett brett omfång av användarfall, från kognitiv analys till datautforskning.

  • Spark Core API: Har stöd för R, SQL, Python, Scala och Java.

Apache Spark i Azure Databricks arbets yta

Azure Databricks arbets ytan bygger på funktionerna i Spark genom att tillhandahålla en moln plattform utan hantering som innehåller:

  • Helt hanterade Spark-kluster
  • En interaktiv arbetsyta för utforskning och visualisering
  • En plattform för att starta dina favorit Spark-program

Helt hanterade Apache Spark-kluster i molnet

Azure Databricks har en säker och tillförlitlig produktionsmiljö i molnet, som hanteras och stöds av Spark-experter. Du kan:

  • Skapa kluster på några sekunder.
  • Autoskala kluster dynamiskt upp och ned och dela dem över team.
  • Använd kluster program mässigt genom att anropa REST-API: er.
  • Använd säkra funktioner för dataintegrering som byggs ovanpå Spark och gör det möjligt att göra data enhetliga utan centralisering.
  • Få åtkomst direkt till de senaste Apache Spark-funktionerna med varje version.

Databricks Runtime

Databricks Runtime skapas ovanpå Apache Spark och är inbyggt för Azure-molnet.

Azure Databricks helt sammanfattar infrastruktur komplexiteten och behovet av specialiserad expertis för att konfigurera och konfigurera data infrastrukturen.

För datatekniker som bryr sig om prestanda för produktionsjobb tillhandahåller Azure Databricks en Spark-motor som är snabbare och har bättre prestanda i olika optimeringar i I/O-lagret och bearbetningslagret (Databricks I/O).

Arbetsyta för samarbete

Via en gemensam och integrerad miljö effektiviserar Azure Databricks processen med att utforska data, skapa prototyper och köra datadrivna program i Spark.

  • Avgör hur du vill använda data med enkel datautforskning.
  • Dokumentera förloppet på bärbara datorer i R, Python, Scala eller SQL.
  • Visualisera data med några få klickningar och använd välbekanta verktyg som Matplotlib, ggplot eller d3.
  • Använd interaktiva instrumentpaneler för att skapa dynamiska rapporter.
  • Använd Spark och interagera med data samtidigt.

Företagssäkerhet

Azure Databricks-arbetsyta ger Azure-säkerhet i företags klass, inklusive Azure Active Directory integrering, rollbaserade kontroller och service avtal som skyddar dina data och din verksamhet.

  • Med hjälp av integrering med Azure Active Directory kan du köra fullständiga Azure-baserade lösningar med Azure Databricks.
  • Den rollbaserade åtkomsten i Azure Databricks möjliggör detaljerad användarbehörighet för bärbara datorer, kluster, jobb och data.
  • Serviceavtal i företagsklass.

Viktigt

Azure Databricks-arbetsytan är en Microsoft Azure tjänst från första part som distribueras i den globala Azure-infrastrukturen för offentliga moln. All kommunikation mellan komponenterna i tjänsten, inklusive mellan offentliga IP-adresser i kontroll planet och kundens data plan, ligger kvar inom Microsoft Azure nätverkets stamnät. Se även Microsoft Global Network.

Integrering med Azure-tjänster

Azure Databricks arbets ytan integreras djupt med Azure-databaser och butiker: Synapse Analytics, Cosmos DB, Data Lake Store och Blob Storage.

Integrering med Power BI

Med hjälp av omfattande integrering med Power BI kan du Azure Databricks arbets ytan för att upptäcka och dela dina insikter snabbt och enkelt. Du kan även använda andra BI-verktyg, till exempel Tableau-programvara.

Nästa steg