Sdílet prostřednictvím


Transformace dat spuštěním aktivity Azure Databricks

Aktivita Azure Databricks ve službě Data Factory pro Microsoft Fabric umožňuje orchestrovat následující úlohy Azure Databricks:

  • Poznámkový blok
  • Jar
  • Python

Tento článek obsahuje podrobný návod, který popisuje, jak vytvořit aktivitu Azure Databricks pomocí rozhraní služby Data Factory.

Požadavky

Abyste mohli začít, musíte splnit následující požadavky:

Konfigurace aktivity Azure Databricks

Pokud chcete v kanálu použít aktivitu Azure Databricks, proveďte následující kroky:

Konfigurace připojení

  1. Vytvořte v pracovním prostoru nový kanál.

  2. Klikněte na přidat aktivitu kanálu a vyhledejte Azure Databricks.

    Screenshot of the Fabric Data pipelines landing page and Azure Databricks activity highlighted.

  3. Alternativně můžete v podokně Aktivity kanálu vyhledat Azure Databricks a vybrat ji, aby se přidala na plátno kanálu.

    Screenshot of the Fabric UI with the Activities pane and Azure Databricks activity highlighted.

  4. Pokud ještě není vybraná, vyberte na plátně novou aktivitu Azure Databricks.

    Screenshot showing the General settings tab of the Azure Databricks activity.

Informace o konfiguraci karty Obecné nastavení najdete v doprovodných materiálech k obecným nastavením.

Konfigurace clusterů

  1. Vyberte kartu Cluster. Pak můžete zvolit existující nebo vytvořit nové připojení Azure Databricks a pak vybrat nový cluster úloh, existující interaktivní cluster nebo existující fond instancí.

  2. V závislosti na tom, co vyberete pro cluster, vyplňte odpovídající pole podle zobrazených polí.

    • V rámci nového clusteru úloh a existujícího fondu instancí máte také možnost nakonfigurovat počet pracovních procesů a povolit spotové instance.
  3. Můžete také zadat další nastavení clusteru, jako jsou zásady clusteru, konfigurace Sparku, proměnné prostředí Sparku a vlastní značky podle potřeby pro cluster, ke kterému se připojujete. Inicializační skripty Databricks a cílová cesta protokolu clusteru je možné přidat také pod další nastavení clusteru.

    Poznámka:

    Všechny pokročilé vlastnosti clusteru a dynamické výrazy podporované v propojené službě Azure Databricks služby Azure Databricks se teď podporují také v aktivitě Azure Databricks v Microsoft Fabric v části Další konfigurace clusteru v uživatelském rozhraní. Vzhledem k tomu, že tyto vlastnosti jsou nyní zahrnuty v uživatelském rozhraní aktivity; Dají se snadno použít s výrazem (dynamickým obsahem), aniž by bylo nutné použít pokročilou specifikaci JSON v propojené službě Azure Databricks služby Azure Databricks.

    Screenshot showing the Cluster settings tab of the Azure Databricks activity.

  4. Aktivita Azure Databricks teď podporuje také podporu zásad clusteru a katalogu Unity.

    • V rozšířených nastaveních máte možnost zvolit zásady clusteru, abyste mohli určit, které konfigurace clusteru jsou povolené.
    • V rozšířených nastaveních máte také možnost nakonfigurovat režim přístupu ke katalogu Unity pro přidání zabezpečení.

    Screenshot showing the policy ID and Unity Catalog support under Cluster settings tab of the Azure Databricks activity.

Konfigurace nastavení

Když vyberete kartu Nastavení, můžete si vybrat mezi 3 možnostmi, které typ Azure Databricks chcete orchestrovat.

Screenshot showing the Settings tab of the Azure Databricks activity.

Orchestrace typu poznámkového bloku v aktivitě Azure Databricks:

  1. Na kartě Nastavení můžete zvolit přepínač Poznámkový blok a spustit poznámkový blok. Budete muset zadat cestu poznámkového bloku, která se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat poznámkovému bloku, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Screenshot showing the Notebooks type of the Azure Databricks activity.

Orchestrace typu Jar v aktivitě Azure Databricks:

  1. Na kartě Nastavení můžete zvolit přepínač Jar a spustit jar. Budete muset zadat název třídy, který se má spustit v Azure Databricks, volitelné základní parametry, které se mají předat jar, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Screenshot showing the Jar type of the Azure Databricks activity.

Orchestrace typu Python v aktivitě Azure Databricks:

  1. Na kartě Nastavení můžete zvolit přepínač Pythonu a spustit soubor Pythonu. Budete muset zadat cestu v rámci Azure Databricks k souboru Pythonu, který se má spustit, volitelné základní parametry, které se mají předat, a všechny další knihovny, které se mají nainstalovat do clusteru, aby se úloha spustila.

    Screenshot showing the Python type of the Azure Databricks activity.

Podporované knihovny pro aktivitu Azure Databricks

Ve výše uvedené definici aktivity Databricks můžete zadat tyto typy knihoven: jar, egg, whl, maven, pypi, cran.

Další informace najdete v dokumentaci k Databricks pro typy knihoven.

Předávání parametrů mezi aktivitou Azure Databricks a kanály

Parametry můžete předat poznámkovým blokům pomocí vlastnosti baseParameters v aktivitě Databricks.

V některých případech můžete vyžadovat předání určitých hodnot z poznámkového bloku zpět do služby, které se dají použít pro tok řízení (podmíněné kontroly) ve službě nebo spotřebovávat podřízené aktivity (limit velikosti je 2 MB).

  1. V poznámkovém bloku můžete například volat dbutils.notebook.exit("returnValue") a odpovídající "returnValue" se vrátí do služby.

  2. Výstup ve službě můžete využívat pomocí výrazu, například @{activity('databricks activity name').output.runOutput}.

Screenshot showing how to pass base parameters in the Azure Databricks activity.

Uložení a spuštění nebo naplánování kanálu

Jakmile nakonfigurujete všechny další aktivity potřebné pro váš kanál, přepněte na kartu Domů v horní části editoru kanálů a výběrem tlačítka Uložit kanál uložte. Vyberte Spustit a spusťte ho přímo nebo naplánujte jeho naplánování. Historii spuštění můžete zobrazit také tady nebo nakonfigurovat další nastavení.

Screenshot showing how to save and run the pipeline.

Monitorování spuštění kanálu