Rychlý Start: spuštění úlohy Sparku v Azure Databricks pracovním prostoru pomocí Azure Portal

V tomto rychlém startu použijete Azure Portal k vytvoření pracovního prostoru Azure Databricks s Apache Sparkm clusterem. Úlohu spustíte v clusteru a pomocí vlastních grafů můžete vytvořit sestavy z bezpečnostních dat v Seattlu v reálném čase.

Požadavky

  • Předplatné Azure – Vytvořte si ho zdarma. Tento kurz se nedá provést pomocí předplatného Azure free zkušební verze. Pokud máte bezplatný účet, přejděte na svůj profil a změňte si předplatné na průběžné platby. Další informace najdete na stránce bezplatného účtu Azure. Pak odeberte limit útratya požádejte o zvýšení kvóty pro vCPU ve vaší oblasti. když vytváříte pracovní prostor Azure Databricks, můžete vybrat cenovou úroveň zkušební verze (Premium-14-dnů Free dbu) a poskytnout tak přístup k pracovnímu prostoru zdarma Premium Azure Databricks dbu po dobu 14 dnů.

  • Přihlaste se k webu Azure Portal.

Poznámka

Pokud chcete vytvořit pracovní prostor Azure Databricks v komerčním cloudu Azure, který obsahuje certifikace dodržování předpisů pro státní správu USA, jako je FedRAMP vysoká, obraťte se na zástupce Microsoftu nebo datacihly, abyste získali přístup k tomuto prostředí.

Vytvoření pracovního prostoru Azure Databricks

V této části vytvoříte Azure Databricks pracovní prostor pomocí Azure Portal nebo rozhraní příkazového řádku Azure CLI.

  1. Na webu Azure Portal vyberte Vytvořit prostředekAnalýzaAzure Databricks.

    Datacihly na Azure Portal

  2. V části Služba Azure Databricks zadejte hodnoty pro vytvoření pracovního prostoru Databricks.

    Vytvoření pracovního prostoru Azure Databricks

    Zadejte následující hodnoty:

    Vlastnost Popis
    Název pracovního prostoru Zadejte název pracovního prostoru Databricks.
    Předplatné Z rozevíracího seznamu vyberte své předplatné Azure.
    Skupina prostředků Určete, jestli chcete vytvořit novou skupinu prostředků, nebo použít existující. Skupina prostředků je kontejner, který uchovává související prostředky pro řešení Azure. Další informace naleznete v tématu Přehled skupin prostředků v Azure.
    Umístění Vyberte USA – západ 2. Další dostupné oblasti najdete v tématu Dostupné služby Azure podle oblastí.
    Cenová úroveň vyberte si standardní, Premiumnebo zkušební verze. Další informace o těchto úrovních najdete na stránce s cenami za Databricks.
  3. Vyberte zkontrolovat + vytvořita pak vytvořit. Vytvoření pracovního prostoru trvá několik minut. Při vytváření pracovního prostoru můžete zobrazit stav nasazení v části oznámení. Po dokončení tohoto procesu se váš uživatelský účet automaticky přidá jako uživatel s právy pro správu v pracovním prostoru.

    Databricks deployment tileDlaždice nasazení datacihly

    V případě selhání nasazení pracovního prostoru je pracovní prostor stále vytvořen ve stavu selhání. Odstraňte neúspěšný pracovní prostor a vytvořte nový pracovní prostor, který vyřeší chyby nasazení. Při odstranění neúspěšného pracovního prostoru se odstraní také spravovaná skupina prostředků a všechny úspěšně nasazené prostředky.

Vytvoření clusteru Spark ve službě Databricks

Poznámka

Pokud chcete k vytvoření clusteru Azure Databricks použít bezplatný účet, přejděte na svůj profil a změňte své předplatné na Průběžné platby. Další informace najdete na stránce bezplatného účtu Azure.

  1. Na webu Azure Portal přejděte do pracovního prostoru Databricks, který jste vytvořili, a klikněte na Spustit pracovní prostor.

  2. Budete přesměrováni na portál Azure Databricks. Na portálu klikněte na nový cluster.

    Datacihly v Azure

  3. Na stránce New cluster (Nový cluster) zadejte hodnoty pro vytvoření clusteru.

    Vytvoření clusteru datacihly Spark v Azure

    Přijměte všechny výchozí hodnoty kromě následujících:

    • Zadejte název clusteru.

    • V tomto článku vytvořte cluster s modulem runtime (5. X, 6. x, 7. x).

    • Ujistěte se, že jste zaškrtli políčko ukončit po __ minutách nečinnosti . Zadejte dobu (v minutách), po které se má ukončit činnost clusteru, pokud se cluster nepoužívá.

      Vyberte vytvořit cluster. Po spuštění clusteru můžete ke clusteru připojit poznámkové bloky a spouštět úlohy Spark.

Další informace o vytváření clusterů najdete v tématu Vytvoření clusteru Spark v Azure Databricks.

Spuštění úlohy Spark SQL

pomocí následujících kroků vytvořte v datacihlách poznámkový blok, nakonfigurujte si poznámkový blok pro čtení dat z otevřených datových sad Azure a pak na datech spusťte úlohu Spark SQL.

  1. V levém podokně vyberte Azure Databricks. V části běžné úlohyvyberte Nový Poznámkový blok.

    Vytvoření novéhopoznámkového bloku

  2. V dialogovém okně vytvořit Poznámkový blok zadejte název, vyberte Python jako jazyk a vyberte cluster Spark, který jste vytvořili dříve.

    Zadání podrobností poznámkového bloku

    Vyberte Vytvořit.

  3. v tomto kroku vytvoříte datový rámec Spark dataframe s daty o zabezpečení Seattle z Azure Open datasetsa použijete SQL k dotazování dat.

    Následující příkaz nastaví informace o přístupu k Azure Storage. Vložte tento kód PySpark do první buňky a stisknutím SHIFT + ENTER kód spusťte.

    blob_account_name = "azureopendatastorage"
    blob_container_name = "citydatacontainer"
    blob_relative_path = "Safety/Release/city=Seattle"
    blob_sas_token = r"?st=2019-02-26T02%3A34%3A32Z&se=2119-02-27T02%3A34%3A00Z&sp=rl&sv=2018-03-28&sr=c&sig=XlJVWA7fMXCSxCKqJm8psMOh0W4h7cSYO28coRqF2fs%3D"
    

    Následující příkaz umožňuje službě Spark číst z úložiště objektů BLOB vzdáleně. Vložte tento kód PySpark do další buňky a stisknutím SHIFT + ENTER kód spusťte.

    wasbs_path = 'wasbs://%s@%s.blob.core.windows.net/%s' % (blob_container_name, blob_account_name, blob_relative_path)
    spark.conf.set('fs.azure.sas.%s.%s.blob.core.windows.net' % (blob_container_name, blob_account_name), blob_sas_token)
    print('Remote blob path: ' + wasbs_path)
    

    Následující příkaz vytvoří datový rámec. Vložte tento kód PySpark do další buňky a stisknutím SHIFT + ENTER kód spusťte.

    df = spark.read.parquet(wasbs_path)
    print('Register the DataFrame as a SQL temporary view: source')
    df.createOrReplaceTempView('source')
    
  4. spusťte příkaz SQL vrátí prvních 10 řádků dat z dočasného zobrazení s názvem zdroj. Vložte tento kód PySpark do další buňky a stisknutím SHIFT + ENTER kód spusťte.

    print('Displaying top 10 rows: ')
    display(spark.sql('SELECT * FROM source LIMIT 10'))
    
  5. Zobrazí se tabulkový výstup jako na následujícím snímku obrazovky (zobrazí se jenom některé sloupce):

    Ukázkovádata –

  6. nyní vytvoříte vizuální reprezentaci těchto dat, abyste zobrazili, kolik bezpečnostních událostí je hlášeno pomocí aplikace občané Připojení aplikace a města pracovního procesu měst místo jiných zdrojů. V dolní části tabulkového výstupu vyberte ikonu pruhového grafu a potom klikněte na Možnosti grafu.

    Create bar chartVytvořit pruhový

  7. V části Customize Plot (Přizpůsobit graf) přetáhněte hodnoty, jak ukazuje snímek obrazovky.

    Customize pie chartPřizpůsobení grafu přizpůsobení

    • Nastavte klíče na zdroj.

    • Nastavte hodnoty na \id .

    • V poli Aggregation (Agregace) vyberte možnost COUNT (Počet).

    • Nastavte typ zobrazení na výsečový graf.

      Klikněte na Použít.

Vyčištění prostředků

Po dokončení tohoto článku můžete cluster ukončit. Pokud to chcete udělat, v levém podokně v pracovním prostoru Azure Databricks vyberte Clusters (Clustery). U clusteru, který chcete ukončit, přesuňte kurzor na tři tečky pod sloupcem Actions (Akce) a vyberte ikonu Terminate (Ukončit).

Zastavení clusteru datacihly

Pokud cluster neukončíte ručně, zastaví se automaticky za předpokladu, že jste při vytváření clusteru zaškrtli políčko Ukončit po __ minutách nečinnosti. V takovém případě se cluster automaticky zastaví, pokud byl po stanovenou dobu neaktivní.

Další kroky

V tomto článku jste v Azure Databricks vytvořili cluster Spark a spustili jste úlohu Sparku s využitím dat z Azure Open DataSet. Můžete si také projít článek Zdroje dat Spark a zjistit, jak do Azure Databricks importovat data z jiných zdrojů dat. V dalším článku se dozvíte, jak pomocí Azure Databricks provést operaci ETL (extrakce, transformace a načítání dat).