Zdieľať cez


Ako vytvoriť definíciu práce v Apache Spark v službe Fabric

V tomto kurze sa dozviete, ako vytvoriť definíciu pracovnej úlohy služby Spark v službe Microsoft Fabric.

Požiadavky

Skôr než začnete, potrebujete:

Tip

Ak chcete spustiť položku definície úlohy Spark, musíte mať hlavný súbor definície a predvolený kontext jazera. Ak nemáte lakehouse, môžete si ho vytvoriť pomocou krokov v téme Vytvorenie jazera.

Vytvorenie definície úlohy v službe Spark

Proces vytvorenia definície úloh spark je rýchly a jednoduchý; Môžete začať niekoľkými spôsobmi.

Možnosti vytvorenia definície úlohy služby Spark

Existuje niekoľko spôsobov, ako začať s procesom vytvárania:

  • Domovská stránka dátového inžinierstva: Definíciu práce v službe Spark môžete jednoducho vytvoriť prostredníctvom karty Definícia úlohy služby Spark v časti Nové na domovskej stránke.

    Snímka obrazovky znázorňujúca, kde vybrať kartu definície úlohy spark.

  • Zobrazenie pracovného priestoru: Definíciu úlohy v službe Spark môžete vytvoriť aj prostredníctvom pracovného priestoru v Dátový inžinier pomocou rozbaľovacej ponuky Nový.

    Snímka obrazovky znázorňujúca miesto, kde vybrať definíciu úlohy spark v ponuke Nový.

  • Vytvoriť zobrazenie: Ďalším vstupným bodom na vytvorenie definície úlohy v službe Spark je stránka Vytvoriť v Dátový inžinier.

    Snímka obrazovky znázorňujúca, kde v centre Vytvoriť centrum vyberte položku Definícia úlohy služby Spark.

Pri vytváraní je potrebné zadať názov definície pracovnej úlohy služby Spark. Názov musí byť jedinečný v rámci aktuálneho pracovného priestoru. Nová definícia úlohy v službe Spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Vytvorenie definície úlohy služby Spark pre PySpark (Python)

Ak chcete vytvoriť definíciu úlohy Spark pre PySpark:

  1. Stiahnite si vzorový súbor CSV yellow_tripdata_2022_01.csv a nahrajte ho do sekcie súborov na lakehouse.

  2. Vytvorte novú definíciu úlohy v službe Spark.

  3. V rozbaľovacom zozname Jazyk vyberte položku PySpark (Python).

  4. Stiahnite si ukážku createTablefromCSV.py a nahrajte ju ako hlavný súbor definície. Hlavný súbor definície (úloha. Main) je súbor, ktorý obsahuje logiku aplikácie a je povinný spustiť úlohu Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.

    Hlavný súbor definície môžete nahrať z lokálnej pracovnej plochy alebo môžete nahrať z existujúceho súboru Azure Data Lake Storage (ADLS) Gen2 zadaním úplnej cesty ABFSS k súboru. Napríklad, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.

  5. Nahrajte referenčné súbory ako .py súbory. Referenčné súbory sú moduly jazyka python, ktoré sú importované hlavným súborom definície. Rovnako ako v prípade hlavného súboru definície, môžete nahrať z pracovnej plochy alebo z existujúceho údaju ADLS Gen2. Podporovaných je viacero referenčných súborov.

    Tip

    Ak používate cestu ADLS Gen2, aby ste sa uistili, že súbor je dostupný, musíte dať používateľskému kontu, ktoré spúšťa danú úlohu, náležité povolenie pre konto úložiska. Odporúčame k tomu dva rôzne spôsoby:

    • Priradenie používateľského konta k role Prispievateľ pre konto úložiska.
    • Udeľte povolenie na čítanie a spustenie používateľskému kontu súboru prostredníctvom zoznamu riadenia prístupu ADLS Gen2 (ACL).

    Ak chcete manuálne spustiť úlohu, na spustenie úlohy sa použije konto aktuálneho prihlasovacieho používateľa.

  6. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu. Ako rozdeľovač použite medzeru na oddelenie argumentov.

  7. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

    Podporované sú viaceré odkazy na lakehouse. Vyhľadajte predvolený názov jazera a úplnú URL adresu onelake na stránke Spark Nastavenia.

    Snímka obrazovky znázorňujúca príklad vyplnenej obrazovky súboru hlavnej definície.

Vytvorenie definície úlohy Spark pre Scalu/Java

Ak chcete vytvoriť definíciu úlohy Spark pre Scalu/Java:

  1. Vytvorte novú definíciu úlohy v službe Spark.

  2. V rozbaľovacom zozname Jazyk vyberte spark(Scala/Java).

  3. Nahrajte hlavný súbor definície ako .jar súbor. Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície. Zadajte názov triedy Main (Hlavný).

  4. Nahrajte referenčné súbory ako .jar súbory. Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.

  5. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.

  6. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Vytvorenie definície úlohy Spark pre R

Ak chcete vytvoriť definíciu úlohy SparkR(R):

  1. Vytvorte novú definíciu úlohy v službe Spark.

  2. V rozbaľovacom zozname Jazyk vyberte položku SparkR(R).

  3. Nahrajte hlavný súbor definície ako . Súbor R . Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.

  4. Nahrajte referenčné súbory ako . Súbory R . Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.

  5. V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.

  6. Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Poznámka

Definícia úlohy spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Možnosti prispôsobenia definícií úloh služby Spark

Existuje niekoľko možností, ako ďalej prispôsobiť vykonávanie definícií úloh služby Spark.

  • Spark Compute: Na karte Spark Compute (Výpočet služby Spark) môžete vidieť verziu modulu runtime, ktorá je verziou služby Spark, ktorá sa použije na spustenie úlohy. Môžete si tiež pozrieť nastavenia konfigurácie služby Spark, ktoré sa použijú na spustenie úlohy. Nastavenia konfigurácie služby Spark môžete prispôsobiť kliknutím na tlačidlo Pridať .
  • Optimalizácia: Na karte Optimalizácia môžete zapnúť a nastaviť politiku opakovania pre úlohu. Ak je úloha povolená, v prípade zlyhania sa úloha zopakova. Môžete tiež nastaviť maximálny počet pokusov a interval medzi pokusmi. Pri každom pokuse sa úloha reštartuje. Uistite sa, že práca je idempotentný.

    Snímka obrazovky znázorňujúca, kde je potrebné nastaviť politiku opakovania.