Vad är Databricks Data Science & Engineering?

Databricks Data Science & Engineering (kallas ibland bara "arbetsyta") är en analysplattform baserad på Apache Spark. Det är integrerat med Azure för att tillhandahålla konfiguration med ett klick, effektiva arbetsflöden och en interaktiv arbetsyta som möjliggör samarbete mellan datatekniker, dataforskare och maskininlärningstekniker.

Vad är Azure Databricks?

För en stordatapipeline matas data (rådata eller strukturerade) in i Azure via Azure Data Factory i batchar eller strömmas nästan i realtid med hjälp av Apache Kafka, Event Hub eller IoT Hub. Dessa data hamnar i en datasjö för långsiktig beständig lagring i Azure Blob Storage eller Azure Data Lake Storage. Som en del av ditt analysarbetsflöde använder du Azure Databricks för att läsa data från flera datakällor såsom Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB eller Azure SQL Data Warehouse och omvandlar dem till banbrytande insikter med hjälp av Spark.

Databricks-pipeline

Apache Spark analysplattform

Databricks Data Science & Engineering består av den fullständiga Apache Spark klustertekniker och -funktioner. Spark i Databricks Data Science & Engineering innehåller följande komponenter:

Apache Spark i Azure Databricks

  • Spark SQL och DataFrames: Spark SQL är Spark-modulen för att arbeta med strukturerade data. En DataFrame är en distribuerad datasamling som har ordnats i namngivna kolumner. Begreppsmässigt motsvarar den en tabell i en relationsdatabas eller en dataram i R/Python.

  • Strömning: Realtidsbearbetning av data och analys för analysprogram och interaktiva program. Integreras med HDFS, Flume och Kafka.

  • MLlib:Machine Learning-bibliotek som består av vanliga inlärningsalgoritmer och verktyg, inklusive klassificering, regression, klustring, samarbetsfiltrering, dimensionsminskning samt underliggande optimeringsprimit.

  • GraphX: Diagram och diagramberäkning för ett brett omfång av användarfall, från kognitiv analys till datautforskning.

  • Spark Core API: Har stöd för R, SQL, Python, Scala och Java.

Apache Spark i Azure Databricks

Azure Databricks bygger på funktionerna i Spark genom att tillhandahålla en underhållsfri molnplattform som innehåller:

  • Helt hanterade Spark-kluster
  • En interaktiv arbetsyta för utforskning och visualisering
  • En plattform för att driva dina Favorit Spark-program

Helt hanterade Apache Spark-kluster i molnet

Azure Databricks har en säker och tillförlitlig produktionsmiljö i molnet, som hanteras och stöds av Spark-experter. Du kan:

  • Skapa kluster på några sekunder.
  • Autoskala kluster dynamiskt uppåt och nedåt och dela dem mellan team.
  • Använd kluster programmatiskt genom att använda REST-API:er.
  • Använd säkra funktioner för dataintegrering som byggs ovanpå Spark och gör det möjligt att göra data enhetliga utan centralisering.
  • Få åtkomst direkt till de senaste Apache Spark-funktionerna med varje version.

Databricks Runtime

Databricks Runtime bygger på Apache Spark och är inbyggt för Azure-molnet.

Azure Databricks tar helt bort infrastrukturens komplexitet och behovet av specialkunskaper för att konfigurera din datainfrastruktur.

För datatekniker som bryr sig om prestanda för produktionsjobb tillhandahåller Azure Databricks en Spark-motor som är snabbare och har bättre prestanda i olika optimeringar i I/O-lagret och bearbetningslagret (Databricks I/O).

Arbetsyta för samarbete

Genom en samarbetsbaserad och integrerad miljö effektiviserar Databricks Data Science Engineering processen med att utforska data, skapa prototyper och köra & datadrivna program i Spark.

  • Avgör hur du vill använda data med enkel datautforskning.
  • Dokumentera förloppet på bärbara datorer i R, Python, Scala eller SQL.
  • Visualisera data med några få klickningar och använd välbekanta verktyg som Matplotlib, ggplot eller d3.
  • Använd interaktiva instrumentpaneler för att skapa dynamiska rapporter.
  • Använd Spark och interagera med data samtidigt.

Företagssäkerhet

Azure Databricks ger Azure-säkerhet i företagsklass, inklusive integrering av Azure Active Directory, rollbaserade kontroller och serviceavtal som skyddar data och företaget.

  • Med hjälp av integrering med Azure Active Directory kan du köra fullständiga Azure-baserade lösningar med Azure Databricks.
  • Den rollbaserade åtkomsten i Azure Databricks möjliggör detaljerad användarbehörighet för bärbara datorer, kluster, jobb och data.
  • Serviceavtal i företagsklass.

Viktigt

Azure Databricks är Microsoft Azure tjänst från första part som distribueras i den globala offentliga Azure-molninfrastrukturen. All kommunikation mellan komponenter i tjänsten, inklusive mellan de offentliga IP-adresser i kontrollplanet och kundens dataplan, finns kvar i Microsoft Azure nätverkets stamnät. Se även Microsofts globala nätverk.

Integrering med Azure-tjänster

Databricks Data Science Engineering integreras djupt med & Azure-databaser och lagringslager: Synapse Analytics, Cosmos DB, Data Lake Store och Blob Storage.

Integrering med Power BI

Tack vare omfattande integrering med Power BI kan du med Databricks Data Science Engineering snabbt och enkelt upptäcka & och dela dina effektfulla insikter. Du kan även använda andra BI-verktyg, till exempel Tableau Software.

Nästa steg