Co je Databricks Data Science & Engineering?

Databricks Data Science & Engineering (někdy označovaný jako "Pracovní prostor") je analytická platforma založená na Apache Sparku. Je integrovaná s Azure, která poskytuje nastavení jedním kliknutím, zjednodušené pracovní postupy a interaktivní pracovní prostor, který umožňuje spolupráci mezi datovými inženýry, datovými vědci a inženýry strojového učení.

What is Azure Databricks?

V případě kanálu pro velké objemy dat se data (nezpracovaná nebo strukturovaná) ingestují do Azure prostřednictvím Azure Data Factory v dávkách nebo streamují téměř v reálném čase pomocí Apache Kafka, Event Hubu nebo IoT Hub. Tato data se nachází v datovém jezeře pro dlouhodobé trvalé úložiště v Azure Blob Storage nebo Azure Data Lake Storage. Jako součást pracovního postupu analýzy můžete pomocí Azure Databricks číst data z několika zdrojů dat, jako jsou Azure Blob Storage, Azure Data Lake Storage, Azure Cosmos DB nebo Azure SQL Data Warehouse a přemění ho na průlomové poznatky pomocí Sparku.

Databricks pipeline

Analytická platforma Apache Sparku

Databricks Data Science & Engineering zahrnuje kompletní opensourcové technologie a možnosti clusteru Apache Spark. Spark ve službě Databricks Data Science & Engineering zahrnuje následující komponenty:

Apache Spark in Azure Databricks

  • Spark SQL a DataFrames: Spark SQL je modul Sparku pro práci se strukturovanými daty. DataFrame je distribuovaná kolekce dat uspořádaných do pojmenovaných sloupců. Je koncepčním ekvivalentem tabulky v relační databázi nebo datového rámce v R nebo Pythonu.

  • Streamování: Zpracování dat a analýzy v reálném čase pro analytické a interaktivní aplikace. Integruje se s HDFS, Flume a Kafka.

  • MLlib: Machine Learning knihovna skládající se z běžných algoritmů a nástrojů učení, včetně klasifikace, regrese, clusteringu, filtrování pro spolupráci, redukce dimenzí a také základních primitiv optimalizace.

  • GraphX: Grafy a grafické výpočetní funkce pro širokou škálu případů použití od kognitivních analýz až po zkoumání dat.

  • Spark Core API: Zahrnuje podporu pro R, SQL, Python, Scalu a Javu.

Apache Spark na platformě Azure Databricks

Azure Databricks staví na možnostech Sparku a poskytuje cloudovou platformu s nulovou správou, která zahrnuje:

  • Plně spravované clustery Spark
  • Interaktivní pracovní prostor pro zkoumání a vizualizace
  • Platforma pro napájení oblíbených aplikací Spark

Plně spravované clustery Apache Spark v cloudu

Azure Databricks má zabezpečené a spolehlivé produkční prostředí v cloudu, spravované a podporované odborníky na Spark. Další možnosti:

  • Vytvářet clustery během několik sekund.
  • Dynamicky automaticky škálovat clustery nahoru a dolů a sdílet je napříč týmy.
  • Pomocí kódu programu používejte clustery vyvoláním rozhraní REST API.
  • Využívat možnosti zabezpečené integrace dat postavené na Sparku, které umožňují unifikovat vaše data bez nutnosti centralizace.
  • Prostřednictvím jednotlivých verzí získat okamžitý přístup k nejnovějším funkcím Apache Sparku.

Modul runtime Databricks

Databricks Runtime je založený na Apache Sparku a je nativně sestavený pro cloud Azure.

Azure Databricks zcela abstrahuje složitost infrastruktury a potřebu specializovaných odborných znalostí k nastavení a konfiguraci datové infrastruktury.

Datovým technikům, pro které je důležitý výkon produkčních úloh, Azure Databricks poskytuje sparkový modul, který je rychlejší a výkonnější při zpracování různých optimalizací na vstupně-výstupní vrstvě a vrstvě zpracování (vstupně-výstupní operace Databricks).

Pracovní prostor pro spolupráci

Díky integrovanému prostředí pro spolupráci databricks data science & engineering zjednodušuje proces zkoumání dat, vytváření prototypů a spouštění aplikací řízených daty ve Sparku.

  • Snadné zkoumání dat umožňuje určit způsob jejich využití.
  • K dokumentování průběhu můžete využít poznámkové bloky v R, Python, Scale nebo SQL.
  • K vizualizaci dat stačí několik kliknutí a je možné využít oblíbené nástroje, jako je Matplotlib, ggplot nebo d3.
  • Pomocí interaktivních řídicích panelů můžete vytvářet dynamické sestavy.
  • Můžete využít Spark a interagovat s daty současně.

Podnikové zabezpečení

Azure Databricks poskytuje zabezpečení Azure na podnikové úrovni, včetně integrace služby Azure Active Directory, řízení na základě rolí a smluv SLA, které chrání vaše data a vaši firmu.

  • Integrace s Azure Active Directory umožňuje provozovat kompletní řešení založená na Azure s využitím Azure Databricks.
  • Přístup na základě rolí v Azure Databricks umožňuje využívat jemně odstupňovaná uživatelská oprávnění pro poznámkové bloky, clustery, úlohy a data.
  • Smlouvy SLA na podnikové úrovni.

Důležité

Azure Databricks je služba Microsoft Azure první strany, která je nasazená v globální infrastruktuře veřejného cloudu Azure. Veškerá komunikace mezi součástmi služby, včetně veřejných IP adres v řídicí rovině a roviny zákaznických dat, zůstávají v páteřní síti Microsoft Azure. Viz také globální síť Microsoftu.

Integrace se službami Azure

Databricks Data Science & Engineering se hluboce integruje s databázemi a úložišti Azure: Synapse Analytics, Cosmos DB, Data Lake Store a Blob Storage.

Integrace s Power BI

Díky bohaté integraci s Power BI vám Databricks Data Science & Engineering umožňuje rychle a snadno objevovat a sdílet své působivé přehledy. Můžete také použít další nástroje BI, jako je Tableau Software.

Další kroky