Datové cihly – & Koncepty technické vědy
Tento článek představuje sadu základních konceptů, které potřebujete pochopit, aby bylo možné efektivně používat Azure Databricks pracovního prostoru.
Pracovní prostor
Pracovní prostor je prostředí pro přístup ke všem vašim Azure Databricksm prostředkům. Pracovní prostor uspořádá objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.
Tato část popisuje objekty obsažené ve složkách Azure Databricks pracovního prostoru.
Webové rozhraní pro dokumenty, které obsahují spustitelný příkazy, vizualizace a mluvený text.
Rozhraní, které poskytuje uspořádaný přístup k vizualizacím.
Balíček kódu dostupný pro Poznámkový blok nebo úlohu spuštěnou ve vašem clusteru. Běhové moduly datacihly obsahují mnoho knihoven a můžete přidat vlastní.
Složka, jejíž obsah se společně používá, synchronizuje je se vzdáleným úložištěm Git.
Kolekce MLflow běží pro školení modelu strojového učení.
Rozhraní
Tato část popisuje rozhraní, která Azure Databricks podporuje pro přístup k prostředkům: uživatelské rozhraní, rozhraní API a příkazového řádku (CLI).
Uživatelské rozhraní
Uživatelské rozhraní Azure Databricks nabízí snadno použitelné grafické rozhraní pro složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

Existují tři verze REST API: 2,1, 2,0a 1,2. Rozhraní REST API 2,1 a 2,0 podporují většinu funkcí REST API 1,2 a další funkce a jsou preferované.
Otevřený zdrojový projekt hostovaný na GitHub. Rozhraní příkazového řádku je postaveno nad REST API (nejnovější).
Správa dat
V této části jsou popsány objekty, které obsahují data, na kterých provádíte analýzu, a podávání do algoritmů strojového učení.
Systém souborů Databricks (DBFS)
Vrstva abstrakce systému souborů v úložišti objektů BLOB. Obsahuje adresáře, které mohou obsahovat soubory (datové soubory, knihovny a image) a další adresáře. DBFS se automaticky vyplní některými datovými sadami , které můžete použít k učení Azure Databricks.
Kolekce informací, které jsou uspořádány tak, aby mohly být snadno dostupné, spravované a aktualizované.
Reprezentace strukturovaných dat. můžete se dotazovat na tabulky pomocí Apache Spark rozhraní api SQL a Apache Spark.
Komponenta, která ukládá všechny informace o struktuře různých tabulek a oddílů v datovém skladu, včetně informací o typu sloupce a sloupce, serializátorech a deserializátorech potřebných ke čtení a zápisu dat a odpovídajících souborech, kde jsou data uložena. Každé nasazení Azure Databricks má centrální metastore Hive, který je přístupný pro všechny clustery a uchovává metadata tabulek. Máte také možnost použít existující externí metastore Hive.
Správa výpočtů
V této části najdete popis konceptů, které potřebujete znát ke spuštění výpočtů v Azure Databricks.
Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: všechny účely a úlohy.
- Cluster pro všechny účely můžete vytvořit pomocí uživatelského rozhraní, CLI nebo REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
- Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy na novém clusteru úloh a ukončí cluster po dokončení úlohy. Nemůžete restartovat cluster úloh.
Sada nečinných instancí, které jsou připravené k použití, což snižuje dobu spouštění a automatického škálování clusteru. Při připojení k fondu přidělí cluster svůj ovladač a uzly pracovního procesu z fondu. Pokud fond nemá dostatek nečinných prostředků, které by vyhovovaly požadavku clusteru, fond se rozšíří přidělením nových instancí od zprostředkovatele instance. Po ukončení připojeného clusteru se instance, které použily, vrátí do fondu a můžou je znovu použít v jiném clusteru.
Sada základních komponent, které běží na clusterech spravovaných pomocí Azure Databricks. Azure Databricks nabízí několik typů modulů runtime:
- Databricks runtime zahrnuje Apache Spark, ale také přidává řadu součástí a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
- Databricks Runtime pro Machine Learning je postavená na Databricks Runtime a poskytuje prostředí připravené na procházení pro Machine Learning a datové vědy. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.
- Databricks runtime pro genomiku je verze Databricks runtime optimalizovaná pro práci s genomikou a biolékařskými daty.
- Indikátory datacihly jsou Azure Databricks balení open source Apache Spark runtime. Poskytuje možnost modulu runtime pro úlohy, které nepotřebují pokročilé výhody výkonu, spolehlivosti a automatického škálování, které poskytuje Databricks Runtime. Možnost datacihly můžete vybrat jenom v případě, že vytvoříte cluster pro spuštění JAR, Pythonu nebo úlohy odeslání. Tento modul runtime nelze vybrat pro clustery, na kterých spouštíte interaktivní úlohy nebo úlohy poznámkového bloku.
Neinteraktivní mechanismus pro spuštění poznámkového bloku nebo knihovny, a to buď okamžitě, nebo na základě plánu.
Úloha
Azure Databricks identifikují dva typy úloh v závislosti na různých cenových režimech: inženýr pro data (úlohy) a analýza dat (pro všechny účely).
- Data Engineering Úlohy (automatizované) běží na clusteru úloh , který plánovač úloh Azure Databricks vytvoří pro každou úlohu.
- Analýza dat Pracovní vytížení (interaktivní) běží na clusteru pro všechny účely. Interaktivní úlohy obvykle spouští příkazy v rámci Azure Databricks poznámkového bloku. Spuštění úlohy na stávajícím clusteru pro všechny účely je ale také považováno za interaktivní úlohy.
Kontext spuštění
Stav prostředí REPL pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.
Strojové učení
Tato část popisuje koncepty týkající se strojového učení v Azure Databricks.
Hlavní jednotka organizace pro sledování vývoje modelu Machine Learning. Experimenty organizují, zobrazují a ovládají přístup k jednotlivým protokolovaným běhům kódu školení modelu.
Centralizované úložiště funkcí. Úložiště funkcí datacihly umožňuje sdílení funkcí a zjišťování v rámci vaší organizace a také zajišťuje, že se stejný kód výpočtu funkce používá pro školení modelů a odvozování.
Vyškolený model strojového učení nebo obsáhlého učení , který byl zaregistrován v registru modelu.
Ověřování a autorizace
V této části najdete popis konceptů, které potřebujete znát při správě Azure Databricks uživatelů a jejich přístupu k prostředkům Azure Databricks.
Jedinečná osoba, která má přístup k systému.
Kolekce uživatelů.
Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentování. Seznam ACL určuje, kterým uživatelům nebo systémovým procesům je udělen přístup k objektům a jaké operace jsou pro prostředky povoleny. Každá položka v typickém seznamu ACL určuje předmět a operaci.