Transformace dat ve službě Azure Virtual Network pomocí aktivity Hive ve službě Azure Data Factory pomocí webu Azure Portal

PLATÍ PRO: Azure Data Factory Azure Synapse Analytics

Tip

Vyzkoušejte si službu Data Factory v Microsoft Fabric, řešení pro analýzy typu all-in-one pro podniky. Microsoft Fabric zahrnuje všechno od přesunu dat až po datové vědy, analýzy v reálném čase, business intelligence a vytváření sestav. Přečtěte si, jak začít používat novou zkušební verzi zdarma.

V tomto kurzu pomocí webu Azure Portal vytvoříte kanál Data Factory, který transformuje data pomocí aktivity Hivu v clusteru HDInsight ve službě Azure Virtual Network. V tomto kurzu provedete následující kroky:

  • Vytvoření datové továrny
  • Vytvoření místního prostředí Integration Runtime
  • Vytvoření propojených služeb Azure Storage a Azure HDInsight
  • Vytvoření kanálu s aktivitou Hivu
  • Aktivace spuštění kanálu
  • Monitorování spuštění kanálu
  • Ověření výstupu

Pokud ještě nemáte předplatné Azure, vytvořte si napřed bezplatný účet.

Požadavky

Poznámka:

Při práci s Azure doporučujeme používat modul Azure Az PowerShellu. Začněte tím, že si projdete téma Instalace Azure PowerShellu. Informace o tom, jak migrovat na modul Az PowerShell, najdete v tématu Migrace Azure PowerShellu z AzureRM na Az.

  • Účet služby Azure Storage. Vytvoříte skript Hivu a uložíte ho do úložiště Azure. Výstup ze skriptu Hivu je uložený v tomto účtu úložiště. V této ukázce clusteru HDInsight používá tento účet služby Azure Storage jako primární úložiště.

  • Azure Virtual Network. Pokud nemáte virtuální síť Azure, vytvořte ji pomocí těchto pokynů. V této ukázce je HDInsight ve službě Azure Virtual Network. Tady je ukázka konfigurace služby Azure Virtual Network.

    Create virtual network

  • Cluster HDInsight. Vytvořte cluster HDInsight a připojte ho k virtuální síti, kterou jste vytvořili v předchozím kroku, a na základě informací v článku věnovaném rozšíření Azure HDInsightu s využitím služby Azure Virtual Network. Tady je ukázka konfigurace HDInsightu ve virtuální síti.

    HDInsight in a virtual network

  • Azure PowerShell: Postupujte podle pokynů v tématu Jak nainstalovat a nakonfigurovat Azure PowerShell.

  • Virtuální počítač. Vytvořte virtuální počítač Azure a připojte ho do stejné virtuální sítě, která obsahuje váš cluster HDInsight. Podrobnosti najdete v tématu věnovaném postupu při vytváření virtuálních počítačů.

Uložení skriptu Hivu do vašeho účtu služby Blob Storage

  1. Vytvořte soubor SQL Hivu s názvem hivescript.hql a s následujícím obsahem:

    DROP TABLE IF EXISTS HiveSampleOut; 
    CREATE EXTERNAL TABLE HiveSampleOut (clientid string, market string, devicemodel string, state string)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY ' ' 
    STORED AS TEXTFILE LOCATION '${hiveconf:Output}';
    
    INSERT OVERWRITE TABLE HiveSampleOut
    Select 
        clientid,
        market,
        devicemodel,
        state
    FROM hivesampletable
    
  2. Ve službě Azure Blob Storage, vytvořte kontejner nazvaný adftutorial, pokud ještě neexistuje.

  3. Vytvořte složku s názvem hivescripts.

  4. Uložte soubor hivescript.hql do podsložky hivescripts.

Vytvoření datové továrny

  1. Pokud jste ještě nevytvořili datovou továrnu, postupujte podle kroků v rychlém startu: Vytvoření datové továrny pomocí webu Azure Portal a nástroje Azure Data Factory Studio k jeho vytvoření. Po vytvoření přejděte na webu Azure Portal k datové továrně.

    Screenshot of home page for the Azure Data Factory, with the Open Azure Data Factory Studio tile.

  2. Na dlaždici Otevřít azure Data Factory Studio vyberte Otevřít, aby se aplikace Integrace Dat spustila na samostatné kartě.

Vytvoření místního prostředí Integration Runtime

Vzhledem k tomu, že cluster Hadoop je ve virtuální síti, musíte do stejné virtuální sítě nainstalovat místní prostředí Integration Runtime. V této části vytvoříte nový virtuální počítač, připojíte ho do stejné virtuální sítě a nainstalujete na něm místní prostředí IR. Místní prostředí IR umožňuje službě Data Factory odesílat požadavky na zpracování do výpočetní služby, jako je HDInsight, ve virtuální síti. Umožňuje také přesun dat mezi úložištěm dat ve virtuální síti a Azure. Místní prostředí IR použijete i v případě, že je úložiště dat nebo výpočetní služba v místním prostředí.

  1. V uživatelském rozhraní služby Azure Data Factory klikněte v dolní části okna na Připojení, přepněte na kartu Prostředí Integration Runtime a klikněte na tlačítko + Nový na panelu nástrojů.

    New integration runtime menu

  2. V okně Instalace prostředí Integration Runtime vyberte možnost Provést přesun dat a odeslání aktivit do externích výpočetních prostředí a klikněte na Další.

    Select perform data movement and dispatch activities option

  3. Vyberte Privátní síť a klikněte na Další.

    Select private network

  4. Jako Název zadejte MySelfHostedIR a klikněte na Další.

    Specify integration runtime name

  5. Kliknutím na tlačítko kopírování zkopírujte ověřovací klíč pro prostředí Integration Runtime a uložte ho. Nechte okno otevřené. Pomocí tohoto klíče zaregistrujete prostředí IR nainstalovaný na virtuálním počítači.

    Copy authentication key

Instalace prostředí IR na virtuálním počítači

  1. Ve virtuálním počítači Azure stáhněte modul runtime integrace v místním prostředí. Použijte ověřovací klíč získaný v předchozím kroku a toto místní prostředí Integration Runtime ručně zaregistrujte.

    Register integration runtime

  2. Po úspěšném zaregistrování místního prostředí Integration Runtime se zobrazí následující zpráva.

    Registered successfully

  3. Klikněte na Spustit Správce konfigurace. Jakmile se uzel připojí ke cloudové službě, zobrazí se následující stránka:

    Node is connected

Místní prostředí IR v uživatelském rozhraní služby Azure Data Factory

  1. V uživatelském rozhraní služby Azure Data Factory by se měl zobrazit název virtuálního počítače v místním prostředí a jeho stav.

    Existing self-hosted nodes

  2. Kliknutím na Dokončit zavřete okno Instalace prostředí Integration Runtime. Místním prostředí Integration Runtime se zobrazí v seznamu prostředí Integration Runtime.

    Self-hosted IR in the list

Vytvoření propojených služeb

V této části vytvoříte a nasadíte dvě propojené služby:

  • Propojená služba Azure Storage, která propojí účet služby Azure Storage s datovou továrnou. Toto úložiště používá cluster HDInsight jako primární. V tomto případě použijete tento účet služby Azure Storage k uložení skriptu Hivu a výstupu tohoto skriptu.
  • Propojená služba HDInsight. Azure Data Factory odešle skript Hive do tohoto clusteru HDInsight ke spuštění.

Vytvoření propojené služby Azure Storage

  1. Přepněte na kartu Propojené služby a klikněte na Nová.

    New linked service button

  2. V okně Nová propojená služba vyberte Azure Blob Storage a klikněte na Pokračovat.

    Select Azure Blob Storage

  3. V okně Nová propojená služba proveďte následující kroky:

    1. Jako Název zadejte AzureStorageLinkedService.

    2. V části Připojit prostřednictvím prostředí Integration Runtime zadejte MySelfHostedIR.

    3. Jako Název účtu úložiště vyberte svůj účet úložiště Azure.

    4. Pokud chcete otestovat připojení k účtu úložiště, klikněte na Test připojení.

    5. Klikněte na Uložit.

      Specify Azure Blob Storage account

Vytvoření propojené služby HDInsight

  1. Znovu klikněte na Nová a vytvořte další propojenou službu.

    New linked service button

  2. Přepněte na kartu Výpočetní prostředí, vyberte Azure HDInsight a klikněte na Pokračovat.

    Select Azure HDInsight

  3. V okně Nová propojená služba proveďte následující kroky:

    1. Jako Název zadejte AzureHDInsightLinkedService.

    2. Vyberte Použít vlastní službu HDInsight.

    3. Jako Cluster HDInsight vyberte váš cluster HDInsight.

    4. Zadejte uživatelské jméno pro cluster HDInsight.

    5. Zadejte heslo pro tohoto uživatele.

      Azure HDInsight settings

V tomto článku se předpokládá, že máte ke clusteru přístup přes internet. To znamená, že se ke clusteru můžete připojit třeba na https://clustername.azurehdinsight.net. Tato adresa se používá veřejnou brány, která není dostupná, pokud jste k omezení přístupu z internetu použili skupiny zabezpečení sítě (NSG) nebo uživatelem definované trasy (UDR). Aby datová továrna mohla odesílat úlohy do clusteru HDInsight ve službě Azure Virtual Network, musíte ji nakonfigurovat tak, aby tuto adresu URL bylo možné přeložit na privátní IP adresu brány, kterou používá HDInsight.

  1. Na webu Azure Portal otevřete službu Virtual Network, ve které je HDInsight. Otevřete síťové rozhraní s názvem začínajícím textem nic-gateway-0. Poznamenejte si jeho privátní IP adresu. Příklad: 10.6.0.15.

  2. Pokud Azure Virtual Network má server DNS, aktualizujte záznam DNS tak, aby se adresa URL clusteru HDInsight https://<clustername>.azurehdinsight.net dala přeložit na 10.6.0.15. Pokud ve službě Azure Virtual Network nemáte server DNS, můžete to dočasně obejít tak, že upravíte soubor hostitelů (C:\Windows\System32\drivers\etc) všech virtuálních počítačů, které se registrovaly jako uzly místního prostředí Integration Runtime, a to přidáním položky jako je tato:

    10.6.0.15 myHDIClusterName.azurehdinsight.net

Vytvořit kanál

V tomto kroku pomocí aktivity Hivu vytvoříte nový kanál. Tato aktivity spustí skript Hivu, který vrátí data z ukázkové tabulky a uloží je do cesty, které jste definovali.

Mějte na paměti následující body:

  • Parametr scriptPath odkazuje na cestu ke skriptu Hivu v účtu Azure Storage, který jste použili pro MyStorageLinkedService. V této cestě se rozlišují velká a malá písmena.
  • Output je argument použitý ve skriptu Hivu. Při zadávání odkazu na existující složku ve službě Azure Storage použijte formát wasbs://<Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. V této cestě se rozlišují velká a malá písmena.
  1. V uživatelském rozhraní služby Data Factory klikněte na symbol + (plus) v levém podokně a pak klikněte na Kanál.

    New pipeline menu

  2. Na panelu nástrojů Aktivity rozbalte HDInsight a přetáhněte aktivitu Hivu na plochu návrháře kanálu.

    drag-drop Hive activity

  3. V okně Vlastnosti přepněte na kartu Cluster HDInsight a jako Propojená služba HDInsight vyberte AzureHDInsightLinkedService.

    Select HDInsight linked service

  4. Přepněte na kartu Skripty a proveďte následující kroky:

    1. Jako Propojená služba se skriptem zadejte AzureStorageLinkedService.

    2. V části Cesta k souboru klikněte na Procházet úložiště.

      Browse storage

    3. V okně Zvolte soubor nebo složku přejděte do složky hivescripts kontejneru adftutorial, vyberte soubor hivescript.hql a klikněte na Dokončit.

      Choose a file or folder

    4. Ověřte, že se jako Cesta k souboru zobrazí adftutorial/hivescripts/hivescript.hql.

      Script settings

    5. Na kartě Skript rozbalte část Upřesnit.

    6. V části Parametry klikněte na Automaticky vyplnit ze skriptu.

    7. Zadejte hodnotu parametru Output (Výstup) v následujícím formátu: wasbs://<Blob Container>@<StorageAccount>.blob.core.windows.net/outputfolder/. Například: wasbs://adftutorial@mystorageaccount.blob.core.windows.net/outputfolder/.

      Script arguments

  5. Pokud chcete publikovat artefakty do služby Data Factory, klikněte na Publikovat.

    Screenshot shows the option to publish to a Data Factory.

Aktivace spuštění kanálu

  1. Nejprve kanál ověřte kliknutím na tlačítko Ověřit na panelu nástrojů. Zavřete okno Výstup ověření kanálu kliknutím na šipku vpravo (>>).

    Validate pipeline

  2. Pokud chcete aktivovat spuštění kanálu, klikněte na Aktivační událost na panelu nástrojů a pak klikněte na Aktivovat.

    Trigger now

Monitorování spuštění kanálu

  1. Vlevo přepněte na kartu Monitorování. V seznamu Spuštění kanálu se zobrazí spuštění kanálu.

    Monitor pipeline runs

  2. Pokud chcete seznam aktualizovat, klikněte na Aktualizovat.

  3. Pokud chcete zobrazit spuštění aktivit související se spuštěním kanálu, klikněte na Zobrazit spuštění aktivit ve sloupci Akce. Další odkazy na akce slouží k zastavení nebo opětovnému spuštění kanálu.

    View activity runs

  4. Zobrazí se pouze jedno spuštění aktivit, protože kanál obsahuje pouze jednu aktivitu typu HDInsightHive. Pokud chcete přepnout zpět na předchozí zobrazení, klikněte na odkaz Kanály v horní části.

    Activity runs

  5. Ověřte, že složka outputfolder kontejneru adftutorial obsahuje výstupní soubor.

    Output file

V tomto kurzu jste provedli následující kroky:

  • Vytvoření datové továrny
  • Vytvoření místního prostředí Integration Runtime
  • Vytvoření propojených služeb Azure Storage a Azure HDInsight
  • Vytvoření kanálu s aktivitou Hivu
  • Aktivace spuštění kanálu
  • Monitorování spuštění kanálu
  • Ověření výstupu

Pokud se chcete dozvědět víc o transformaci dat pomocí clusteru Spark v Azure, přejděte k následujícímu kurzu: