Ako vytvoriť definíciu práce v Apache Spark v službe Fabric

Článok
05/13/2024

V tomto kurze sa dozviete, ako vytvoriť definíciu pracovnej úlohy služby Spark v službe Microsoft Fabric.

Požiadavky

Skôr než začnete, potrebujete:

konto nájomníka služby Fabric s aktívnym predplatným, Vytvorte si bezplatné konto.

Tip

Ak chcete spustiť položku definície úlohy Spark, musíte mať hlavný súbor definície a predvolený kontext jazera. Ak nemáte lakehouse, môžete si ho vytvoriť pomocou krokov v téme Vytvorenie jazera.

Vytvorenie definície úlohy v službe Spark

Proces vytvorenia definície úloh spark je rýchly a jednoduchý; Môžete začať niekoľkými spôsobmi.

Možnosti vytvorenia definície úlohy služby Spark

Existuje niekoľko spôsobov, ako začať s procesom vytvárania:

Domovská stránka dátového inžinierstva: Definíciu práce v službe Spark môžete jednoducho vytvoriť prostredníctvom karty Definícia úlohy služby Spark v časti Nové na domovskej stránke.
Zobrazenie pracovného priestoru: Definíciu úlohy v službe Spark môžete vytvoriť aj prostredníctvom pracovného priestoru v Dátový inžinier pomocou rozbaľovacej ponuky Nový.
Vytvoriť zobrazenie: Ďalším vstupným bodom na vytvorenie definície úlohy v službe Spark je stránka Vytvoriť v Dátový inžinier.

Pri vytváraní je potrebné zadať názov definície pracovnej úlohy služby Spark. Názov musí byť jedinečný v rámci aktuálneho pracovného priestoru. Nová definícia úlohy v službe Spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Vytvorenie definície úlohy služby Spark pre PySpark (Python)

Ak chcete vytvoriť definíciu úlohy Spark pre PySpark:

Stiahnite si vzorový súbor CSV yellow_tripdata_2022_01.csv a nahrajte ho do sekcie súborov na lakehouse.
Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte položku PySpark (Python).
Stiahnite si ukážku createTablefromCSV.py a nahrajte ju ako hlavný súbor definície. Hlavný súbor definície (úloha. Main) je súbor, ktorý obsahuje logiku aplikácie a je povinný spustiť úlohu Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.

Hlavný súbor definície môžete nahrať z lokálnej pracovnej plochy alebo môžete nahrať z existujúceho súboru Azure Data Lake Storage (ADLS) Gen2 zadaním úplnej cesty ABFSS k súboru. Napríklad, abfss://your-storage-account-name.dfs.core.windows.net/your-file-path.
Nahrajte referenčné súbory ako .py súbory. Referenčné súbory sú moduly jazyka python, ktoré sú importované hlavným súborom definície. Rovnako ako v prípade hlavného súboru definície, môžete nahrať z pracovnej plochy alebo z existujúceho údaju ADLS Gen2. Podporovaných je viacero referenčných súborov.
Tip

Ak používate cestu ADLS Gen2, aby ste sa uistili, že súbor je dostupný, musíte dať používateľskému kontu, ktoré spúšťa danú úlohu, náležité povolenie pre konto úložiska. Odporúčame k tomu dva rôzne spôsoby:
- Priradenie používateľského konta k role Prispievateľ pre konto úložiska.
- Udeľte povolenie na čítanie a spustenie používateľskému kontu súboru prostredníctvom zoznamu riadenia prístupu ADLS Gen2 (ACL).
Ak chcete manuálne spustiť úlohu, na spustenie úlohy sa použije konto aktuálneho prihlasovacieho používateľa.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu. Ako rozdeľovač použite medzeru na oddelenie argumentov.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Podporované sú viaceré odkazy na lakehouse. Vyhľadajte predvolený názov jazera a úplnú URL adresu onelake na stránke Spark Nastavenia.

Vytvorenie definície úlohy Spark pre Scalu/Java

Ak chcete vytvoriť definíciu úlohy Spark pre Scalu/Java:

Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte spark(Scala/Java).
Nahrajte hlavný súbor definície ako .jar súbor. Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície. Zadajte názov triedy Main (Hlavný).
Nahrajte referenčné súbory ako .jar súbory. Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Vytvorenie definície úlohy Spark pre R

Ak chcete vytvoriť definíciu úlohy SparkR(R):

Vytvorte novú definíciu úlohy v službe Spark.
V rozbaľovacom zozname Jazyk vyberte položku SparkR(R).
Nahrajte hlavný súbor definície ako . Súbor R . Hlavným súborom definície je súbor, ktorý obsahuje logiku aplikácie tejto úlohy a je povinný na spustenie úlohy v službe Spark. Pre každú definíciu úlohy služby Spark môžete nahrať iba jeden hlavný súbor definície.
Nahrajte referenčné súbory ako . Súbory R . Referenčné súbory sú súbory, na ktoré odkazuje/importuje hlavný súbor definície.
V prípade potreby poskytnite argumenty príkazového riadka pre úlohu.
Pridajte odkaz na lakehouse k úlohe. Musíte mať aspoň jeden lakehouse odkaz pridaný do práce. Tento lakehouse je predvolený lakehouse kontext pre túto úlohu.

Poznámka

Definícia úlohy spark sa vytvorí vo vašom aktuálnom pracovnom priestore.

Možnosti prispôsobenia definícií úloh služby Spark

Existuje niekoľko možností, ako ďalej prispôsobiť vykonávanie definícií úloh služby Spark.

Spark Compute: Na karte Spark Compute (Výpočet služby Spark) môžete vidieť verziu modulu runtime, ktorá je verziou služby Spark, ktorá sa použije na spustenie úlohy. Môžete si tiež pozrieť nastavenia konfigurácie služby Spark, ktoré sa použijú na spustenie úlohy. Nastavenia konfigurácie služby Spark môžete prispôsobiť kliknutím na tlačidlo Pridať .

Optimalizácia: Na karte Optimalizácia môžete zapnúť a nastaviť politiku opakovania pre úlohu. Ak je úloha povolená, v prípade zlyhania sa úloha zopakova. Môžete tiež nastaviť maximálny počet pokusov a interval medzi pokusmi. Pri každom pokuse sa úloha reštartuje. Uistite sa, že práca je idempotentný.

Spustenie definície úlohy v Apache Spark

Zdieľať cez

Ako vytvoriť definíciu práce v Apache Spark v službe Fabric

Požiadavky

Vytvorenie definície úlohy v službe Spark

Možnosti vytvorenia definície úlohy služby Spark

Vytvorenie definície úlohy služby Spark pre PySpark (Python)

Vytvorenie definície úlohy Spark pre Scalu/Java

Vytvorenie definície úlohy Spark pre R

Možnosti prispôsobenia definícií úloh služby Spark

Pripomienky

Pripomienky

Ďalšie zdroje informácií

Zdieľať cez

Ako vytvoriť definíciu práce v Apache Spark v službe Fabric

Požiadavky

Vytvorenie definície úlohy v službe Spark

Možnosti vytvorenia definície úlohy služby Spark

Vytvorenie definície úlohy služby Spark pre PySpark (Python)

Vytvorenie definície úlohy Spark pre Scalu/Java

Vytvorenie definície úlohy Spark pre R

Možnosti prispôsobenia definícií úloh služby Spark

Súvisiaci obsah

Pripomienky

Pripomienky

Ďalšie zdroje informácií