Koncepty Azure Databricks
Tento článek představuje sadu základních konceptů, které potřebujete pochopit, aby bylo možné efektivně používat Azure Databricks.
Účty a pracovní prostory
V Azure Databricks je pracovní prostor nasazením Azure Databricks v cloudu, které funguje jako prostředí pro váš tým pro přístup k prostředkům Databricks. Vaše organizace se může rozhodnout, že bude mít v závislosti na svých potřebách více pracovních prostorů nebo jenom jeden pracovní prostor.
Účet Azure Databricks představuje jednu entitu, která může obsahovat více pracovních prostorů. Účty povolené pro Katalog Unity je možné použít ke správě uživatelů a jejich přístupu k datům centrálně ve všech pracovních prostorech v účtu.
Fakturace: Jednotky Databricks (DBU)
Azure Databricks účtuje faktury na základě jednotek Databricks (DBU), jednotek zpracování za hodinu na základě typu instance virtuálního počítače.
Podívejte se na stránku s cenami Azure Databricks.
Ověřování a autorizace
Tato část popisuje koncepty, které potřebujete vědět, když spravujete identity Azure Databricks a jejich přístup k prostředkům Azure Databricks.
Uživatelská
Jedinečný jednotlivec, který má přístup k systému. Identity uživatelů jsou reprezentovány e-mailovými adresami. Viz Správa uživatelů.
Instanční objekt
Identita služby pro použití s úlohami, automatizovanými nástroji a systémy, jako jsou skripty, aplikace a platformy CI/CD. Instanční objekty jsou reprezentovány ID aplikace. Viz Správa instančních objektů.
Seskupit
Kolekce identit. Skupiny zjednodušují správu identit, což usnadňuje přiřazování přístupu k pracovním prostorům, datům a dalším zabezpečitelným objektům. Všechny identity Databricks je možné přiřadit jako členy skupin. Viz Správa skupin
Seznam řízení přístupu (ACL)
Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentu Seznam ACL určuje, kteří uživatelé nebo systémové procesy mají udělený přístup k objektům a jaké operace jsou pro prostředky povolené. Každá položka v typickém seznamu ACL určuje předmět a operaci. Zobrazit seznamy řízení přístupu
Osobní přístupový token
Neprůzný řetězec se používá k ověření v rozhraní REST API a nástroji v technologických partnerech pro připojení ke skladům SQL. Viz ověřování tokenů pat azure Databricks.
Tokeny Microsoft Entra ID (dříve Azure Active Directory) je možné použít také k ověření v rozhraní REST API.
Uživatelské rozhraní
Uživatelské rozhraní Azure Databricks je grafické rozhraní pro interakci s funkcemi, jako jsou složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.
Datové vědy a inženýrství
Nástroje pro datové vědy a inženýrství pomáhají spolupráci mezi datovými vědci, datovými inženýry a datovými analytiky. Tato část popisuje základní koncepty.
Pracovní prostor
Pracovní prostor je prostředí pro přístup ke všem vašim prostředkům Azure Databricks. Pracovní prostor organizuje objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.
Poznámkový blok
Webové rozhraní pro vytváření pracovních postupů datových věd a strojového učení, které může obsahovat spouštěné příkazy, vizualizace a text vyprávění. Viz Úvod do poznámkových bloků Databricks.
Řídicí panel
Rozhraní, které poskytuje uspořádaný přístup k vizualizacm. Zobrazení řídicích panelů v poznámkových blocích
Knihovna
Balíček kódu dostupný pro poznámkový blok nebo úlohu spuštěnou v clusteru. Moduly runtime Databricks obsahují mnoho knihoven a můžete přidat vlastní.
Složka Git (dříve Repos)
Složka, jejíž obsah spoluvlastňuje, jejich synchronizací do vzdáleného úložiště Git. Složky Gitu Databricks se integrují s Gitem, aby poskytovaly správu zdrojového kódu a správy verzí pro vaše projekty.
Experiment
Kolekce MLflow běží pro trénování modelu strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow.
Rozhraní Azure Databricks
Tato část popisuje rozhraní, která Azure Databricks podporuje kromě uživatelského rozhraní také pro přístup k vašim prostředkům: rozhraní API a rozhraní příkazového řádku (CLI).
REST API
Databricks poskytuje dokumentaci k rozhraní API pro pracovní prostor a účet.
Rozhraní příkazového řádku
Opensourcový projekt hostovaný na GitHubu Rozhraní příkazového řádku je postavené na rozhraní REST API Databricks.
Správa dat
Tato část popisuje objekty, ve kterých jsou uložená data, na kterých provádíte analýzy, a dáte je do algoritmů strojového učení.
Systém souborů Databricks (DBFS)
Abstraktní vrstva systému souborů nad úložištěm objektů blob. Obsahuje adresáře, které můžou obsahovat soubory (datové soubory, knihovny a obrázky) a další adresáře. DBFS se automaticky naplní některými datovými sadami , které můžete použít k seznámení s Azure Databricks. Podívejte se, co je systém souborů Databricks (DBFS)?
Databáze
Kolekce datových objektů, jako jsou tabulky nebo zobrazení a funkce, je uspořádaná tak, aby k ní bylo možné snadno přistupovat, spravovat a aktualizovat. Podívejte se , co je databáze?
Table
Reprezentace strukturovaných dat Dotazujete tabulky pomocí Apache Spark SQL a rozhraní Apache Spark API. Podívejte se , co je tabulka?
Tabulka Delta
Ve výchozím nastavení jsou všechny tabulky vytvořené v Azure Databricks tabulky Delta. Tabulky Delta jsou založené na opensourcovém projektu Delta Lake. Jde o architekturu pro vysoce výkonné úložiště tabulek ACID v cloudových úložištích objektů. Tabulka Delta ukládá data jako adresář souborů v cloudovém úložišti objektů a registruje metadata tabulek do metastoru v rámci katalogu a schématu.
Přečtěte si další informace o technologiích označených jako Delta.
Metastore
Komponenta, která ukládá všechny informace o struktuře různých tabulek a oddílů v datovém skladu, včetně informací o typu sloupce a sloupce, serializátorů a deserializérů nezbytných ke čtení a zápisu dat a odpovídajících souborů, ve kterých jsou data uložena. Podívejte se , co je metastore?
Každé nasazení Azure Databricks má centrální metastore Hive, který je přístupný pro všechny clustery a uchovává metadata tabulek. Máte také možnost použít existující externí metastore Hive.
Vizualizace
Grafická prezentace výsledku spuštění dotazu. Viz Vizualizace v poznámkových blocích Databricks.
Správa výpočtů
Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět výpočty v Azure Databricks.
Cluster
Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: účel a úloha. Viz Výpočty.
- Cluster pro všechny účely vytvoříte pomocí uživatelského rozhraní, rozhraní příkazového řádku nebo rozhraní REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
- Plánovač úloh Azure Databricks vytvoří cluster úlohy, když spustíte nějakou úlohu v novém clusteru úlohy, a ukončí ho, když je tato úloha hotová. Cluster úloh nelze restartovat.
Fond
Sada nečinných instancí připravených k použití, které snižují dobu spuštění a automatického škálování clusteru. Když je cluster připojený k fondu, přidělí jeho ovladač a pracovní uzly z fondu. Viz referenční informace o konfiguraci fondu.
Pokud fond nemá dostatek nečinných prostředků pro přizpůsobení požadavku clusteru, fond se rozšíří přidělením nových instancí od poskytovatele instance. Po ukončení připojeného clusteru se instance, které používá, vrátí do fondu a dají se znovu použít jiným clusterem.
Modul runtime Databricks
Sada základních komponent, které běží na clusterech spravovaných službou Azure Databricks. Viz Compute.* Azure Databricks má následující moduly runtime:
- Databricks Runtime zahrnuje Apache Spark, ale také přidává řadu komponent a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
- Databricks Runtime pro machine Učení je založen na Databricks Runtime a poskytuje předem připravenou infrastrukturu strojového učení, která je integrovaná se všemi možnostmi pracovního prostoru Azure Databricks. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.
Pracovní postupy
Architektury pro vývoj a spouštění kanálů zpracování dat:
- Úlohy: Neinteraktivní mechanismus pro spuštění poznámkového bloku nebo knihovny buď okamžitě, nebo podle plánu.
- Delta Live Tables: Architektura pro vytváření spolehlivých, udržovatelných a testovatelných kanálů zpracování dat.
Viz Úvod do pracovních postupů Azure Databricks.
Úloha
Azure Databricks identifikuje dva typy úloh, na které se vztahují různá cenová schémata: příprava dat (úloha) a analýza dat (účel).
- Úloha Přípravy dat (automatizovaná) běží v clusteru úloh, který pro každou úlohu vytvoří plánovač úloh Azure Databricks.
- Úloha Analýzy dat (interaktivní) běží v clusteru pro všechny účely. Interaktivní úlohy obvykle spouštějí příkazy v poznámkovém bloku Azure Databricks. Spuštění úlohy v existujícím clusteru pro všechny účely se ale považuje za interaktivní úlohu.
Kontext spuštění
Stav prostředí repl (read-eval-print loop) pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.
Strojové učení
Strojové Učení v Azure Databricks je integrované komplexní prostředí zahrnující spravované služby pro sledování experimentů, trénování modelů, vývoj a správu funkcí a obsluhu funkcí a modelů.
Experimenty
Hlavní organizační jednotka pro sledování vývoje modelů strojového učení. Viz Uspořádání trénovacích běhů pomocí experimentů MLflow. Experimenty uspořádají, zobrazují a řídí přístup k jednotlivým protokolovaným spuštěním trénovacího kódu modelu.
Úložiště funkcí
Centralizované úložiště funkcí. Podívejte se , co je úložiště funkcí? Úložiště funkcí umožňuje sdílení a zjišťování funkcí ve vaší organizaci a také zajišťuje, aby se pro trénování a odvozování modelů používal stejný výpočetní kód funkcí.
Registr modelů a modelů
Trénovaný model strojového učení nebo hlubokého učení, který je zaregistrovaný v registru modelů.
SQL
SQL REST API
Rozhraní, které umožňuje automatizovat úlohy na objektech SQL. Viz rozhraní SQL API.
Řídicí panel
Prezentace vizualizací dat a komentáře Viz řídicí panely. Starší řídicí panely najdete v tématu Starší řídicí panely.
Dotazy SQL
Tato část popisuje koncepty, které potřebujete vědět, abyste mohli spouštět dotazy SQL v Azure Databricks.
- Dotaz: Platný příkaz SQL.
- SQL Warehouse: Výpočetní prostředek, na kterém spouštíte dotazy SQL.
- Historie dotazů: Seznam spuštěných dotazů a jejich charakteristiky výkonu.
Váš názor
https://aka.ms/ContentUserFeedback.
Připravujeme: V průběhu roku 2024 budeme postupně vyřazovat problémy z GitHub coby mechanismus zpětné vazby pro obsah a nahrazovat ho novým systémem zpětné vazby. Další informace naleznete v tématu:Odeslat a zobrazit názory pro