Koncepty Azure Databricks

Článek
04/16/2024

Tento článek představuje sadu základních konceptů, které potřebujete pochopit, aby bylo možné efektivně používat Azure Databricks.

Účty a pracovní prostory

V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.

Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty povolené pro Katalog Unity je možné použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.

Fakturace: Jednotky Databricks (DBU)

Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), jednotek zpracování za hodinu na základě typu instance virtuálního počítače.

Podívejte se na stránku s cenami Azure Databricks.

Ověřování a autorizace

Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.

Uživatelská

Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.

Instanční objekt

Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Instanční objekty jsou reprezentovány ID aplikace. Viz Správa instančních objektů.

Seskupit

Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Správa skupin

Seznam řízení přístupu (ACL)

Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu Seznam ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou pro prostředky povolené. Každá položka v typickém seznamu ACL určuje předmět a operaci. Zobrazit seznamy řízení přístupu

Osobní přístupový token

Neprůzný řetězec se používá k ověření v rozhraní REST API a nástroji v technologických partnerech pro připojení ke skladům SQL. Viz ověřování tokenů pat azure Databricks.

Tokeny Microsoft Entra ID (dříve Azure Active Directory) je možné použít také k ověření v rozhraní REST API.

Uživatelské rozhraní

Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

Datové vědy a inženýrství

Nástroje pro datové vědy a inženýrství pomáhají spolupráci mezi datovými vědci, datovými inženýry a datovými analytiky. Tato část popisuje základní koncepty.

Pracovní prostor

Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.

Poznámkový blok

Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Viz Úvod do poznámkových bloků Databricks.

Řídicí panel

Rozhraní, které poskytuje uspořádaný přístup k vizualizacm. Zobrazení řídicích panelů v poznámkových blocích

Knihovna

Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Moduly runtime Databricks obsahují mnoho knihoven a můžete přidat vlastní.

Složka Git (dříve Repos)

Složka, jejíž obsah spoluvlastňuje, jejich synchronizací do vzdáleného úložiště Git. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.

Experiment

Kolekce MLflow běží pro trénování modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.

Rozhraní Azure Databricks

Tato část popisuje rozhraní, která Azure Databricks podporuje kromě uživatelského rozhraní také pro přístup k vašim prostředkům: rozhraní API a rozhraní příkazového řádku (CLI).

REST API

Databricks poskytuje dokumentaci k rozhraní API pro pracovní prostor a účet.

Rozhraní příkazového řádku

Opensourcový projekt hostovaný na GitHubu Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.

Správa dat

Tato část popisuje objekty, ve kterých jsou uložená data, na kterých provádíte analýzy, a dáte je do algoritmů strojového učení.

Systém souborů Databricks (DBFS)

Abstraktní vrstva systému souborů nad úložištěm objektů blob. Obsahuje adresáře, které můžou obsahovat soubory (datové soubory, knihovny a obrázky) a další adresáře. DBFS se automaticky naplní některými datovými sadami , které můžete použít k seznámení s Azure Databricks. Podívejte se, co je systém souborů Databricks (DBFS)?

Databáze

Kolekce datových objektů, jako jsou tabulky nebo zobrazení a funkce, je uspořádaná tak, aby k ní bylo možné snadno přistupovat, spravovat a aktualizovat. Podívejte se , co je databáze?

Table

Reprezentace strukturovaných dat Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Podívejte se , co je tabulka?

Tabulka Delta

Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založené na opensourcovém projektu Delta Lake. Jde o architekturu pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.

Přečtěte si další informace o technologiích označených jako Delta.

Metastore

Komponenta, která ukládá všechny informace o struktuře různých tabulek a oddílů v datovém skladu, včetně informací o typu sloupce a sloupce, serializátorů a deserializérů nezbytných ke čtení a zápisu dat a odpovídajících souborů, ve kterých jsou data uložena. Podívejte se , co je metastore?

Každé nasazení Azure Databricks má centrální metastore Hive, který je přístupný pro všechny clustery a uchovává metadata tabulek. Máte také možnost použít existující externí metastore Hive.

Vizualizace

Grafická prezentace výsledku spuštění dotazu. Viz Vizualizace v poznámkových blocích Databricks.

Správa výpočtů

Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.

Cluster

Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: účel a úloha. Viz Výpočty.

Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
Plánovač úloh Azure Databricks vytvoří cluster úlohy, když spustíte nějakou úlohu v novém clusteru úlohy, a ukončí ho, když je tato úloha hotová. Cluster úloh nelze restartovat.

Fond

Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Viz referenční informace o konfiguraci fondu.

Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instance. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.

Modul runtime Databricks

Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Compute.* Azure Databricks má následující moduly runtime:

Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
Databricks Runtime pro machine Učení je založen na Databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi možnostmi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.

Pracovní postupy

Architektury pro vývoj a spouštění kanálů zpracování dat:

Úlohy: Neinteraktivní mechanismus pro spuštění poznámkového bloku nebo knihovny buď okamžitě, nebo podle plánu.
Delta Live Tables: Architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat.

Viz Úvod do pracovních postupů Azure Databricks.

Úloha

Azure Databricks identifikuje dva typy úloh, na které se vztahují různá cenová schémata: příprava dat (úloha) a analýza dat (účel).

Úloha Přípravy dat (automatizovaná) běží v clusteru úloh, který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
Úloha Analýzy dat (interaktivní) běží v clusteru pro všechny účely. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.

Kontext spuštění

Stav prostředí repl (read-eval-print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.

Strojové učení

Strojové Učení v Azure Databricks je integrované komplexní prostředí zahrnující spravované služby pro sledování experimentů, trénování modelů, vývoj a správu funkcí a obsluhu funkcí a modelů.

Experimenty

Hlavní organizační jednotka pro sledování vývoje modelů strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow. Experimenty uspořádají, zobrazují a řídí přístup k jednotlivým protokolovaným spuštěním trénovacího kódu modelu.

Úložiště funkcí

Centralizované úložiště funkcí. Podívejte se , co je úložiště funkcí? Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí.

Registr modelů a modelů

Trénovaný model strojového učení nebo hlubokého učení, který je zaregistrovaný v registru modelů.

SQL

SQL REST API

Rozhraní, které umožňuje automatizovat úlohy na objektech SQL. Viz rozhraní SQL API.

Řídicí panel

Prezentace vizualizací dat a komentáře Viz řídicí panely. Starší řídicí panely najdete v tématu Starší řídicí panely.

Dotazy SQL

Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět dotazy SQL v Azure Databricks.

Dotaz: Platný příkaz SQL.
SQL Warehouse: Výpočetní prostředek, na kterém spouštíte dotazy SQL.
Historie dotazů: Seznam spuštěných dotazů a jejich charakteristiky výkonu.

Koncepty Azure Databricks

Účty a pracovní prostory

Fakturace: Jednotky Databricks (DBU)

Ověřování a autorizace

Uživatelská

Instanční objekt

Seskupit

Seznam řízení přístupu (ACL)

Osobní přístupový token

Uživatelské rozhraní

Datové vědy a inženýrství

Pracovní prostor

Poznámkový blok

Řídicí panel

Knihovna

Složka Git (dříve Repos)

Experiment

Rozhraní Azure Databricks

REST API

Rozhraní příkazového řádku

Správa dat

Systém souborů Databricks (DBFS)

Databáze

Table

Tabulka Delta

Metastore

Vizualizace

Správa výpočtů

Cluster

Fond

Modul runtime Databricks

Pracovní postupy

Úloha

Kontext spuštění

Strojové učení

Experimenty

Úložiště funkcí

Registr modelů a modelů

SQL

SQL REST API

Řídicí panel

Dotazy SQL

Váš názor

Váš názor

Další materiály