Przekształcanie danych przy użyciu działania usługi Hadoop Pig w usłudze Azure Data Factory lub Synapse Analytics

DOTYCZY: Azure Data Factory Azure Synapse Analytics

Napiwek

Wypróbuj usługę Data Factory w usłudze Microsoft Fabric — rozwiązanie analityczne typu all-in-one dla przedsiębiorstw. Usługa Microsoft Fabric obejmuje wszystko, od przenoszenia danych do nauki o danych, analizy w czasie rzeczywistym, analizy biznesowej i raportowania. Dowiedz się, jak bezpłatnie rozpocząć nową wersję próbną !

Działanie usługi HDInsight Pig w potoku usługi Data Factory wykonuje zapytania pig we własnym klastrze usługi HDInsight lub na żądanie. Ten artykuł opiera się na artykule dotyczącym działań przekształcania danych, który zawiera ogólne omówienie transformacji danych i obsługiwanych działań przekształcania.

Aby dowiedzieć się więcej, zapoznaj się z wprowadzeniem do usługi Azure Data Factory lub Synapse Analytics i wykonaj samouczek: przekształcanie danych przed przeczytaniem tego artykułu.

Dodawanie działania usługi HDInsight Pig do potoku za pomocą interfejsu użytkownika

Aby użyć działania usługi HDInsight Pig do potoku, wykonaj następujące kroki:

  1. Wyszukaj ciąg Pig w okienku Działania potoku i przeciągnij działanie Pig na kanwę potoku.

  2. Wybierz nowe działanie Pig na kanwie, jeśli nie zostało jeszcze wybrane.

  3. Wybierz kartę Klaster usługi HDI, aby wybrać lub utworzyć nową połączoną usługę z klastrem usługi HDInsight, który będzie używany do wykonywania działania MapReduce.

    Shows the UI for a Pig activity.

  4. Wybierz kartę Skrypt, aby wybrać lub utworzyć nową połączoną usługę skryptu z lokalizacją usługi Azure Storage, w której będzie hostowany skrypt. Określ w nim nazwę klasy, która ma zostać wykonana, oraz ścieżkę pliku w lokalizacji przechowywania. Można również skonfigurować zaawansowane szczegóły, w tym konfigurację debugowania, argumenty i parametry, które mają być przekazywane do skryptu.

    Shows the UI for the Script tab for a Pig activity.

Składnia

{
    "name": "Pig Activity",
    "description": "description",
    "type": "HDInsightPig",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\PigScripts\\MyPigSript.pig",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }   
}

Szczegóły składni

Właściwości Opis Wymagania
name Nazwa działania Tak
opis Tekst opisujący, do czego służy działanie Nie.
type W przypadku działania Hive typ działania to HDinsightPig Tak
linkedServiceName Odwołanie do klastra usługi HDInsight zarejestrowanego jako połączona usługa. Aby dowiedzieć się więcej o tej połączonej usłudze, zobacz artykuł Dotyczący połączonych usług obliczeniowych. Tak
scriptLinkedService Odwołanie do połączonej usługi Azure Storage używanej do przechowywania skryptu Pig do wykonania. W tym miejscu obsługiwane są tylko połączone usługi Azure Blob Storage i ADLS Gen2. Jeśli nie określisz tej połączonej usługi, zostanie użyta połączona usługa Azure Storage zdefiniowana w połączonej usłudze HDInsight. Nie.
scriptPath Podaj ścieżkę do pliku skryptu przechowywanego w usłudze Azure Storage, do której odwołuje się skryptLinkedService. W nazwie pliku jest uwzględniana wielkość liter. Nie.
getDebugInfo Określa, kiedy pliki dziennika są kopiowane do usługi Azure Storage używanej przez klaster usługi HDInsight (lub) określony przez scriptLinkedService. Dozwolone wartości: Brak, Zawsze lub Niepowodzenie. Wartość domyślna: None. Nie.
Argumenty Określa tablicę argumentów dla zadania hadoop. Argumenty są przekazywane jako argumenty wiersza polecenia do każdego zadania. Nie.
Definiuje Określ parametry jako pary klucz/wartość na potrzeby odwoływania się do skryptu Pig. Nie.

Zapoznaj się z następującymi artykułami, które wyjaśniają sposób przekształcania danych na inne sposoby: