Datové cihly – & Koncepty technické vědy

Tento článek představuje sadu základních konceptů, které potřebujete pochopit, aby bylo možné efektivně používat Azure Databricks pracovního prostoru.

Pracovní prostor

Pracovní prostor je prostředí pro přístup ke všem vašim Azure Databricksm prostředkům. Pracovní prostor uspořádá objekty (poznámkové bloky, knihovny, řídicí panely a experimenty) do složek a poskytuje přístup k datovým objektům a výpočetním prostředkům.

Tato část popisuje objekty obsažené ve složkách Azure Databricks pracovního prostoru.

Poznámkový blok

Webové rozhraní pro dokumenty, které obsahují spustitelný příkazy, vizualizace a mluvený text.

Řídicí panel

Rozhraní, které poskytuje uspořádaný přístup k vizualizacím.

Knihovna

Balíček kódu dostupný pro Poznámkový blok nebo úlohu spuštěnou ve vašem clusteru. Běhové moduly datacihly obsahují mnoho knihoven a můžete přidat vlastní.

úložiště

Složka, jejíž obsah se společně používá, synchronizuje je se vzdáleným úložištěm Git.

Experiment

Kolekce MLflow běží pro školení modelu strojového učení.

Rozhraní

Tato část popisuje rozhraní, která Azure Databricks podporuje pro přístup k prostředkům: uživatelské rozhraní, rozhraní API a příkazového řádku (CLI).

Uživatelské rozhraní

Uživatelské rozhraní Azure Databricks nabízí snadno použitelné grafické rozhraní pro složky pracovního prostoru a jejich obsažené objekty, datové objekty a výpočetní prostředky.

Cílová stránka

REST API

Existují tři verze REST API: 2,1, 2,0a 1,2. Rozhraní REST API 2,1 a 2,0 podporují většinu funkcí REST API 1,2 a další funkce a jsou preferované.

Rozhraní příkazového řádku

Otevřený zdrojový projekt hostovaný na GitHub. Rozhraní příkazového řádku je postaveno nad REST API (nejnovější).

Správa dat

V této části jsou popsány objekty, které obsahují data, na kterých provádíte analýzu, a podávání do algoritmů strojového učení.

Systém souborů Databricks (DBFS)

Vrstva abstrakce systému souborů v úložišti objektů BLOB. Obsahuje adresáře, které mohou obsahovat soubory (datové soubory, knihovny a image) a další adresáře. DBFS se automaticky vyplní některými datovými sadami , které můžete použít k učení Azure Databricks.

databáze

Kolekce informací, které jsou uspořádány tak, aby mohly být snadno dostupné, spravované a aktualizované.

Tabulka

Reprezentace strukturovaných dat. můžete se dotazovat na tabulky pomocí Apache Spark rozhraní api SQL a Apache Spark.

Metastore

Komponenta, která ukládá všechny informace o struktuře různých tabulek a oddílů v datovém skladu, včetně informací o typu sloupce a sloupce, serializátorech a deserializátorech potřebných ke čtení a zápisu dat a odpovídajících souborech, kde jsou data uložena. Každé nasazení Azure Databricks má centrální metastore Hive, který je přístupný pro všechny clustery a uchovává metadata tabulek. Máte také možnost použít existující externí metastore Hive.

Správa výpočtů

V této části najdete popis konceptů, které potřebujete znát ke spuštění výpočtů v Azure Databricks.

Cluster

Sada výpočetních prostředků a konfigurací, na kterých spouštíte poznámkové bloky a úlohy. Existují dva typy clusterů: všechny účely a úlohy.

  • Cluster pro všechny účely můžete vytvořit pomocí uživatelského rozhraní, CLI nebo REST API. Cluster pro obecné účely můžete ručně ukončit a restartovat. Takové clustery mohou být sdíleny mezi několika uživateli, kteří spolupracují na interaktivní analýze.
  • Plánovač úloh Azure Databricks vytvoří cluster úloh při spuštění úlohy na novém clusteru úloh a ukončí cluster po dokončení úlohy. Nemůžete restartovat cluster úloh.

Fond

Sada nečinných instancí, které jsou připravené k použití, což snižuje dobu spouštění a automatického škálování clusteru. Při připojení k fondu přidělí cluster svůj ovladač a uzly pracovního procesu z fondu. Pokud fond nemá dostatek nečinných prostředků, které by vyhovovaly požadavku clusteru, fond se rozšíří přidělením nových instancí od zprostředkovatele instance. Po ukončení připojeného clusteru se instance, které použily, vrátí do fondu a můžou je znovu použít v jiném clusteru.

Runtime datacihly

Sada základních komponent, které běží na clusterech spravovaných pomocí Azure Databricks. Azure Databricks nabízí několik typů modulů runtime:

  • Databricks runtime zahrnuje Apache Spark, ale také přidává řadu součástí a aktualizací, které podstatně zlepšují použitelnost, výkon a zabezpečení analýz velkých objemů dat.
  • Databricks Runtime pro Machine Learning je postavená na Databricks Runtime a poskytuje prostředí připravené na procházení pro Machine Learning a datové vědy. Obsahuje několik oblíbených knihoven, včetně TensorFlow, Keras, PyTorch a XGBoost.
  • Databricks runtime pro genomiku je verze Databricks runtime optimalizovaná pro práci s genomikou a biolékařskými daty.
  • Indikátory datacihly jsou Azure Databricks balení open source Apache Spark runtime. Poskytuje možnost modulu runtime pro úlohy, které nepotřebují pokročilé výhody výkonu, spolehlivosti a automatického škálování, které poskytuje Databricks Runtime. Možnost datacihly můžete vybrat jenom v případě, že vytvoříte cluster pro spuštění JAR, Pythonu nebo úlohy odeslání. Tento modul runtime nelze vybrat pro clustery, na kterých spouštíte interaktivní úlohy nebo úlohy poznámkového bloku.

Úloha

Neinteraktivní mechanismus pro spuštění poznámkového bloku nebo knihovny, a to buď okamžitě, nebo na základě plánu.

Úloha

Azure Databricks identifikují dva typy úloh v závislosti na různých cenových režimech: inženýr pro data (úlohy) a analýza dat (pro všechny účely).

  • Data Engineering Úlohy (automatizované) běží na clusteru úloh , který plánovač úloh Azure Databricks vytvoří pro každou úlohu.
  • Analýza dat Pracovní vytížení (interaktivní) běží na clusteru pro všechny účely. Interaktivní úlohy obvykle spouští příkazy v rámci Azure Databricks poznámkového bloku. Spuštění úlohy na stávajícím clusteru pro všechny účely je ale také považováno za interaktivní úlohy.

Kontext spuštění

Stav prostředí REPL pro každý podporovaný programovací jazyk. Podporované jazyky jsou Python, R, Scala a SQL.

Strojové učení

Tato část popisuje koncepty týkající se strojového učení v Azure Databricks.

Experimenty

Hlavní jednotka organizace pro sledování vývoje modelu Machine Learning. Experimenty organizují, zobrazují a ovládají přístup k jednotlivým protokolovaným běhům kódu školení modelu.

Úložiště funkcí

Centralizované úložiště funkcí. Úložiště funkcí datacihly umožňuje sdílení funkcí a zjišťování v rámci vaší organizace a také zajišťuje, že se stejný kód výpočtu funkce používá pro školení modelů a odvozování.

Modely

Vyškolený model strojového učení nebo obsáhlého učení , který byl zaregistrován v registru modelu.

Ověřování a autorizace

V této části najdete popis konceptů, které potřebujete znát při správě Azure Databricks uživatelů a jejich přístupu k prostředkům Azure Databricks.

Uživatelský

Jedinečná osoba, která má přístup k systému.

Group (Skupina)

Kolekce uživatelů.

Seznam řízení přístupu (ACL)

Seznam oprávnění připojených k pracovnímu prostoru, clusteru, úloze, tabulce nebo experimentování. Seznam ACL určuje, kterým uživatelům nebo systémovým procesům je udělen přístup k objektům a jaké operace jsou pro prostředky povoleny. Každá položka v typickém seznamu ACL určuje předmět a operaci.