Transformera data med Hadoop Hive-aktivitet i Azure Data Factory eller Synapse Analytics

GÄLLER FÖR: Azure Data Factory Azure Synapse Analytics

Dricks

Prova Data Factory i Microsoft Fabric, en allt-i-ett-analyslösning för företag. Microsoft Fabric omfattar allt från dataflytt till datavetenskap, realtidsanalys, business intelligence och rapportering. Lär dig hur du startar en ny utvärderingsversion kostnadsfritt!

HDInsight Hive-aktiviteten i en Azure Data Factory- eller Synapse Analytics-pipeline kör Hive-frågor på eget eller på begäran HDInsight-kluster. Den här artikeln bygger på artikeln om datatransformeringsaktiviteter , som visar en allmän översikt över datatransformering och de omvandlingsaktiviteter som stöds.

Om du är nybörjare på Azure Data Factory och Synapse Analytics läser du igenom introduktionsartiklarna för Azure Data Factory eller Synapse Analytics och gör självstudier: transformera data innan du läser den här artikeln.

Lägga till en HDInsight Hive-aktivitet i en pipeline med användargränssnittet

Utför följande steg för att använda en HDInsight Hive-aktivitet för Azure Data Lake Analytics i en pipeline:

  1. Sök efter Hive i fönstret Pipelineaktiviteter och dra en Hive-aktivitet till pipelinearbetsytan.

  2. Välj den nya Hive-aktiviteten på arbetsytan om den inte redan är markerad.

  3. Välj fliken HDI-kluster för att välja eller skapa en ny länkad tjänst till ett HDInsight-kluster som ska användas för att köra Hive-aktiviteten.

    Shows the UI for a Hive activity.

  4. Välj fliken Skript för att välja eller skapa en ny länkad lagringstjänst och en sökväg på lagringsplatsen som ska vara värd för skriptet.

    Shows the UI for the Script tab for a Hive activity.

Syntax

{
    "name": "Hive Activity",
    "description": "description",
    "type": "HDInsightHive",
    "linkedServiceName": {
        "referenceName": "MyHDInsightLinkedService",
        "type": "LinkedServiceReference"
    },
    "typeProperties": {
        "scriptLinkedService": {
            "referenceName": "MyAzureStorageLinkedService",
            "type": "LinkedServiceReference"
        },
        "scriptPath": "MyAzureStorage\\HiveScripts\\MyHiveSript.hql",
        "getDebugInfo": "Failure",
        "arguments": [
            "SampleHadoopJobArgument1"
        ],
        "defines": {
            "param1": "param1Value"
        }
    }
}

Syntaxinformation

Property Beskrivning Obligatoriskt
name Namnet på aktiviteten Ja
description Text som beskriver vad aktiviteten används för Nej
type För Hive-aktivitet är aktivitetstypen HDinsightHive Ja
linkedServiceName Referens till HDInsight-klustret som registrerats som en länkad tjänst. Mer information om den här länkade tjänsten finns i artikeln Compute linked services (Beräkningslänkade tjänster ). Ja
scriptLinkedService Referens till en länkad Azure Storage-tjänst som används för att lagra Hive-skriptet som ska köras. Här stöds endast Azure Blob Storage- och ADLS Gen2-länkade tjänster. Om du inte anger den här länkade tjänsten används den länkade Azure Storage-tjänsten som definierats i den länkade HDInsight-tjänsten. Nej
scriptPath Ange sökvägen till skriptfilen som lagras i Azure Storage som refereras av scriptLinkedService. Filnamnet är skiftlägeskänsligt. Ja
getDebugInfo Anger när loggfilerna kopieras till Azure Storage som används av HDInsight-klustret (eller) som anges av scriptLinkedService. Tillåtna värden: Ingen, Alltid eller Fel. Standardvärde: Ingen. Nej
Argument Anger en matris med argument för ett Hadoop-jobb. Argumenten skickas som kommandoradsargument till varje uppgift. Nej
Definierar Ange parametrar som nyckel/värde-par för referens i Hive-skriptet. Nej
queryTimeout Tidsgränsvärde för frågor (i minuter). Gäller när HDInsight-klustret är med Enterprise Security Package aktiverat. Nej

Kommentar

Standardvärdet för queryTimeout är 120 minuter.

Se följande artiklar som förklarar hur du transformerar data på andra sätt: