Transformace dat spuštěním aktivity Azure Databricks

Článek
03/16/2024

Aktivita Azure Databricks ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující úlohy Azure Databricks:

Poznámkový blok
Jar
Python

Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure Databricks pomocí rozhraní služby Data Factory.

Požadavky

Abyste mohli začít, musíte splnit následující požadavky:

Účet tenanta s aktivním předplatným. Vytvoření účtu zdarma
Vytvoří se pracovní prostor.

Konfigurace aktivity Azure Databricks

Pokud chcete v kanálu použít aktivitu Azure Databricks, proveďte následující kroky:

Konfigurace připojení

Vytvořte v pracovním prostoru nový kanál.
Klikněte na přidat aktivitu kanálu a vyhledejte Azure Databricks.
Alternativně můžete v podokně Aktivity kanálu vyhledat Azure Databricks a vybrat ji, aby se přidala na plátno kanálu.
Pokud ještě není vybraná, vyberte na plátně novou aktivitu Azure Databricks.

Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Konfigurace clusterů

Vyberte kartu Cluster. Pak můžete zvolit existující nebo vytvořit nové připojení Azure Databricks a pak vybrat nový cluster úloh, existující interaktivní cluster nebo existující fond instancí.
V závislosti na tom, co vyberete pro cluster, vyplňte odpovídající pole podle zobrazených polí.
- V rámci nového clusteru úloh a existujícího fondu instancí máte také možnost nakonfigurovat počet pracovních procesů a povolit spotové instance.
Můžete také zadat další nastavení clusteru, jako jsou zásady clusteru, konfigurace Sparku, proměnné prostředí Sparku a vlastní značky podle potřeby pro cluster, ke kterému se připojujete. Inicializační skripty Databricks a cílová cesta protokolu clusteru je možné přidat také pod další nastavení clusteru.

Poznámka:

Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Databricks služby Azure Databricks se teď podporují také v aktivitě Azure Databricks v Microsoft Fabric v části Další konfigurace clusteru v uživatelském rozhraní. Vzhledem k tomu, že tyto vlastnosti jsou nyní zahrnuty v uživatelském rozhraní aktivity; Dají se snadno použít s výrazem (dynamickým obsahem), aniž by bylo nutné použít pokročilou specifikaci JSON v propojené službě Azure Databricks služby Azure Databricks.
Aktivita Azure Databricks teď podporuje také podporu zásad clusteru a katalogu Unity.
- V rozšířených nastaveních máte možnost zvolit zásady clusteru, abyste mohli určit, které konfigurace clusteru jsou povolené.
- V rozšířených nastaveních máte také možnost nakonfigurovat režim přístupu ke katalogu Unity pro přidání zabezpečení.

Konfigurace nastavení

Když vyberete kartu Nastavení, můžete si vybrat mezi 3 možnostmi, které typ Azure Databricks chcete orchestrovat.

Screenshot showing the Settings tab of the Azure Databricks activity.

Orchestrace typu poznámkového bloku v aktivitě Azure Databricks:

Na kartě Nastavení můžete zvolit přepínač Poznámkový blok a spustit poznámkový blok. Budete muset zadat cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat poznámkovému bloku, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

Orchestrace typu Jar v aktivitě Azure Databricks:

Na kartě Nastavení můžete zvolit přepínač Jar a spustit jar. Budete muset zadat název třídy, který se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat jar, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

Orchestrace typu Python v aktivitě Azure Databricks:

Na kartě Nastavení můžete zvolit přepínač Pythonu a spustit soubor Pythonu. Budete muset zadat cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné základní parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

Podporované knihovny pro aktivitu Azure Databricks

Ve výše uvedené definici aktivity Databricks můžete zadat tyto typy knihoven: jar, egg, whl, maven, pypi, cran.

Další informace najdete v dokumentaci k Databricks pro typy knihoven.

Předávání parametrů mezi aktivitou Azure Databricks a kanály

Parametry můžete předat poznámkovým blokům pomocí vlastnosti baseParameters v aktivitě Databricks.

V některých případech můžete vyžadovat předání určitých hodnot z poznámkového bloku zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo spotřebovávat podřízené aktivity (limit velikosti je 2 MB).

V poznámkovém bloku můžete například volat dbutils.notebook.exit("returnValue") a odpovídající "returnValue" se vrátí do služby.
Výstup ve službě můžete využívat pomocí výrazu, například @{activity('databricks activity name').output.runOutput}.

Screenshot showing how to pass base parameters in the Azure Databricks activity.

Uložení a spuštění nebo naplánování kanálu

Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.

Screenshot showing how to save and run the pipeline.

Monitorování spuštění kanálu

Sdílet prostřednictvím

Transformace dat spuštěním aktivity Azure Databricks

Požadavky