Transformace dat pomocí aktivity streamování Hadoop ve službě Azure Data Factory nebo Synapse Analytics

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

Aktivita streamování HDInsight v kanálu Azure Data Factory nebo Synapse Analytics spouští programy streamování Hadoop ve vašem vlastním clusteru HDInsight nebo clusteru HDInsight na vyžádání. Tento článek vychází z článku o aktivitách transformace dat, který představuje obecný přehled transformace dat a podporovaných transformačních aktivit.

Další informace najdete v úvodních článcích o službě Azure Data Factory a Synapse Analytics a v tomto kurzu: transformace dat před přečtením tohoto článku.

Přidání aktivity streamování HDInsight do kanálu s uživatelským rozhraním

Pokud chcete k kanálu použít aktivitu streamování HDInsight, proveďte následující kroky:

  1. Vyhledejte streamování v podokně Aktivity kanálu a přetáhněte aktivitu streamování na plátno kanálu.

  2. Pokud ještě není vybraná, vyberte na plátně novou aktivitu streamování.

  3. Výběrem karty Cluster HDI vyberte nebo vytvořte novou propojenou službu s clusterem HDInsight, který se použije ke spuštění aktivity streamování.

    Shows the UI for a Streaming activity.

  4. Výběrem karty Soubor zadejte názvy mapperu a redukčního nástroje pro úlohu streamování a vyberte nebo vytvořte novou propojenou službu s účtem Azure Storage, který bude mapovačem, redukčním, vstupním a výstupním souborům úlohy. Můžete také nakonfigurovat pokročilé podrobnosti, včetně konfigurace ladění, argumentů a parametrů, které se mají předat úloze.

    Shows the UI for the File tab for a Streaming activity.

Ukázka JSON

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Podrobnosti o syntaxi

Vlastnost Popis Povinní účastníci
name Název aktivity Ano
description Text popisující, k čemu se aktivita používá No
type U aktivity streamování Hadoop je typ aktivity HDInsightStreaming. Ano
linkedServiceName Odkaz na cluster HDInsight zaregistrovaný jako propojená služba Další informace o této propojené službě najdete v článku o propojených službách Compute. Ano
Mapovač Určuje název spustitelného souboru mapperu. Ano
Redukce Určuje název spustitelného souboru redukčního souboru. Ano
kombinační funkce Určuje název spustitelného souboru kombinátoru. No
fileLinkedService Odkaz na propojenou službu Azure Storage, která slouží k ukládání programů Mapper, Combiner a Reducer, které se mají spustit. Tady jsou podporované jenom propojené služby Azure Blob Storage a ADLS Gen2. Pokud tuto propojenou službu nezadáte, použije se propojená služba Azure Storage definovaná v propojené službě HDInsight. No
Filepath Zadejte pole cesty k programům Mapper, Combiner a Reducer uloženým ve službě Azure Storage, na kterou odkazuje fileLinkedService. V této cestě se rozlišují velká a malá písmena. Ano
vstup Určuje cestu WASB ke vstupnímu souboru mapperu. Ano
output Určuje cestu WASB k výstupnímu souboru redukce. Ano
getDebugInfo Určuje, kdy se soubory protokolu zkopírují do služby Azure Storage používané clusterem HDInsight (nebo) určeným scriptLinkedService. Povolené hodnoty: Žádné, Vždy nebo Selhání. Výchozí hodnota: Žádný. No
Argumenty Určuje pole argumentů pro úlohu Hadoop. Argumenty se předávají každému úkolu jako argumenty příkazového řádku. No
Definuje Zadejte parametry jako páry klíč/hodnota pro odkazování v rámci skriptu Hive. No

Podívejte se na následující články, které vysvětlují, jak transformovat data jinými způsoby: