Adatok átalakítása Hadoop Streaming-tevékenység használatával az Azure Data Factoryben vagy a Synapse Analyticsben

A következőkre vonatkozik: Azure Data Factory Azure Synapse Analytics

Tipp.

Próbálja ki a Data Factoryt a Microsoft Fabricben, amely egy teljes körű elemzési megoldás a nagyvállalatok számára. A Microsoft Fabric az adattovábbítástól az adatelemzésig, a valós idejű elemzésig, az üzleti intelligenciáig és a jelentéskészítésig mindent lefed. Ismerje meg, hogyan indíthat új próbaverziót ingyenesen!

Az Azure Data Factory vagy a Synapse Analytics-folyamat HDInsight streamelési tevékenysége saját vagy igény szerinti HDInsight-fürtön hajtja végre a Hadoop Streaming-programokat. Ez a cikk az adatátalakítási tevékenységekről szóló cikkre épül, amely általános áttekintést nyújt az adatátalakításról és a támogatott átalakítási tevékenységekről.

További információért olvassa el az Azure Data Factory és a Synapse Analytics bevezető cikkeit, és végezze el az oktatóanyagot: adatok átalakítása a cikk elolvasása előtt.

HDInsight Streaming-tevékenység hozzáadása egy folyamathoz felhasználói felülettel

Ha HDInsight Streaming-tevékenységet szeretne használni egy folyamathoz, hajtsa végre a következő lépéseket:

  1. Keressen streamelést a folyamattevékenységek panelen, és húzza a streamelési tevékenységet a folyamatvászonra.

  2. Jelölje ki az új streamelési tevékenységet a vásznon, ha még nincs kijelölve.

  3. A HDI-fürt lapon válassza ki vagy hozzon létre egy új társított szolgáltatást egy HDInsight-fürthöz, amely a streamelési tevékenység végrehajtásához lesz használva.

    Shows the UI for a Streaming activity.

  4. A Fájl fülre kattintva megadhatja a streamelési feladat leképezési és szűkítőneveit, és kiválaszthat vagy létrehozhat egy új társított szolgáltatást egy Azure Storage-fiókhoz, amely a feladat leképezési, csökkentési, bemeneti és kimeneti fájljait fogja tartalmazni. Speciális részleteket is konfigurálhat, beleértve a hibakeresési konfigurációt, az argumentumokat és a feladatnak továbbítandó paramétereket.

    Shows the UI for the File tab for a Streaming activity.

JSON-minta

{
    "name": "Streaming Activity",
    "description": "Description",
    "type": "HDInsightStreaming",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "mapper": "MyMapper.exe",
        "reducer": "MyReducer.exe",
        "combiner": "MyCombiner.exe",
        "fileLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "filePaths": [
            "<containername>/example/apps/MyMapper.exe",
            "<containername>/example/apps/MyReducer.exe",
            "<containername>/example/apps/MyCombiner.exe"
        ],
        "input": "wasb://<containername>@<accountname>.blob.core.windows.net/example/input/MapperInput.txt",
        "output": "wasb://<containername>@<accountname>.blob.core.windows.net/example/output/ReducerOutput.txt",
        "commandEnvironment": [
            "CmdEnvVarName=CmdEnvVarValue"
        ],
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Szintaxis részletei

Property Leírás Required
név A tevékenység neve Igen
leírás A tevékenység használatát leíró szöveg Nem
típus A Hadoop streamelési tevékenység esetében a tevékenység típusa a HDInsightStreaming Igen
linkedServiceName Hivatkozás a társított szolgáltatásként regisztrált HDInsight-fürtre. A társított szolgáltatással kapcsolatos további információkért tekintse meg a társított számítási szolgáltatásokról szóló cikket. Igen
Mapper A végrehajtható leképező nevét adja meg Igen
Szűkítő A végrehajtható redukátor nevét adja meg Igen
Közösítő A végrehajtható kombináló nevét adja meg Nem
fileLinkedService Hivatkozás a végrehajtandó Mapper, Combiner és Reducer programok tárolására használt Azure Storage társított szolgáltatásra. Itt csak az Azure Blob Storage és az ADLS Gen2 társított szolgáltatásai támogatottak. Ha nem adja meg ezt a társított szolgáltatást, a RENDSZER a HDInsight társított szolgáltatásban definiált Azure Storage társított szolgáltatást használja. Nem
filePath Adjon meg egy tömböt a fileLinkedService által hivatkozott Azure Storage-ban tárolt Mapper, Combiner és Reducer programok elérési útjának. Az elérési út megkülönbözteti a kis- és nagybetűket. Igen
input Megadja a Mapper bemeneti fájljának WASB-elérési útját. Igen
output Megadja a Csökkentési fájl kimeneti fájljának WASB-elérési útját. Igen
getDebugInfo Megadja, hogy a naplófájlok mikor legyenek átmásolva a SCRIPTLinkedService által megadott HDInsight-fürt (vagy) által használt Azure Storage-ba. Engedélyezett értékek: Nincs, Mindig vagy Hiba. Alapértelmezett érték: Nincs. Nem
Érvek Egy Hadoop-feladat argumentumainak tömbje. Az argumentumokat a rendszer parancssori argumentumként továbbítja az egyes tevékenységeknek. Nem
Meghatározza Adja meg a paramétereket kulcs/érték párként a Hive-szkripten belüli hivatkozáshoz. Nem

Tekintse meg az alábbi cikkeket, amelyekből megtudhatja, hogyan alakíthat át adatokat más módokon: