Snabbstart: Skapa och övervaka en Apache Storm topologi i Azure HDInsight

Apache Storm är ett skalbart, feltolerant och distribuerat system för beräkningar i realtid för bearbetning av dataströmmar. Du kan skapa ett molnbaserat Storm-kluster som utför analyser av stordata i realtid med Storm på Azure HDInsight.

I den här snabbstarten använder du ett exempel från Apache storm-starter-projektet för att skapa och övervaka en Apache Storm-topologi till ett Apache Storm kluster.

Förutsättningar

Skapa topologin

  1. Anslut till Storm-klustret. Redigera kommandot nedan genom att ersätta CLUSTERNAME med namnet på ditt Storm-kluster och ange sedan kommandot:

    ssh sshuser@CLUSTERNAME-ssh.azurehdinsight.net
    
  2. WordCount-exemplet ingår i ditt HDInsight-kluster på /usr/hdp/current/storm-client/contrib/storm-starter/ . Topologin genererar slumpmässiga meningar och räknar hur många gånger ord förekommer. Använd följande kommando för att starta wordcount-topologin i klustret:

    storm jar /usr/hdp/current/storm-client/contrib/storm-starter/storm-starter-topologies-*.jar org.apache.storm.starter.WordCountTopology wordcount
    

Övervaka topologin

Storm tillhandahåller ett webbgränssnitt för att arbeta med topologier som körs och ingår i ditt HDInsight-kluster.

Genomför följande för att övervaka topologin med hjälp av Storm-användargränssnittet:

  1. Visa Storm-användargränssnittet genom att öppna en webbläsare på https://CLUSTERNAME.azurehdinsight.net/stormui. Ersätt CLUSTERNAME med namnet på klustret.

  2. Under Topologisammanfattning väljer du wordcount-posten i kolumnen Namn. Detta visar information om topologin.

    Storm Dashboard med storm-starter, topologisk information om WordCount.

    Den nya sidan innehåller följande information:

    Egenskap Beskrivning
    Topologistatistik Grundläggande information om topologiprestanda, ordnade i tidsfönster. När du markerar ett specifikt tidsfönster ändras tidsfönstret för information som visas i andra avsnitt på sidan.
    Pipar Grundläggande information om spouts, inklusive det senaste felet som returnerades av varje spout.
    Bultar Grundläggande information om bultar.
    Topologikonfiguration Detaljerad information om topologikonfigurationen.
    Aktivera Återupptar bearbetningen av en inaktiverad topologi.
    Inaktivera Pausar en topologi som körs.
    Balansera Justerar topologin parallellitet. Du bör balansera om topologier som körs när du har ändrat antalet noder i klustret. Ombalansering justerar parallelliteten och kompenserar för det ökade/minskade antalet noder i klustret. Mer information finns i Understanding the parallelism of an Apache Storm topology.
    Döda Avslutar en Storm-topologi efter den angivna tidsgränsen.
  3. På den här sidan väljer du en post från avsnittet Spouts (Kanaler) eller Bolts (Bultar). Detta visar information om den valda komponenten.

    Storm-instrumentpanelen med information om valda komponenter.

    Den nya sidan visar följande information:

    Egenskap Beskrivning
    Statistik för Spout/Bolt Grundläggande information om komponentens prestanda, ordnad i tidsfönster. När du markerar ett specifikt tidsfönster ändras tidsfönstret för information som visas i andra avsnitt på sidan.
    Indatastatistik (endast bult) Information om komponenter som producerar data som förbrukas av bulten.
    Utdatastatistik Information om data som genereras av den här bulten.
    Testamentsexekutorer Information om instanser av den här komponenten.
    Fel Fel som skapas av den här komponenten.
  4. När du visar information om en kanal eller en bult väljer du en post i kolumnen Port i avsnittet Executors (Utförare) för att visa information för en viss komponentinstans.

2015-01-27 14:18:02 b.s.d.task [INFO] Emitting: split default ["with"]
2015-01-27 14:18:02 b.s.d.task [INFO] Emitting: split default ["nature"]
2015-01-27 14:18:02 b.s.d.executor [INFO] Processing received message source: split:21, stream: default, id: {}, [snow]
2015-01-27 14:18:02 b.s.d.task [INFO] Emitting: count default [snow, 747293]
2015-01-27 14:18:02 b.s.d.executor [INFO] Processing received message source: split:21, stream: default, id: {}, [white]
2015-01-27 14:18:02 b.s.d.task [INFO] Emitting: count default [white, 747293]
2015-01-27 14:18:02 b.s.d.executor [INFO] Processing received message source: split:21, stream: default, id: {}, [seven]
2015-01-27 14:18:02 b.s.d.task [INFO] Emitting: count default [seven, 1493957]

I det här exemplet förekommer ordet seven (sju) 1 493 957 gånger. Det är antalet gånger ordet har påträffats sedan topologin startades.

Stoppa topologin

Gå tillbaka till sidan Topology summary (Topologiöversikt) för ordräkningstopologin och välj knappen Kill (Avsluta) i avsnittet Topology actions (Topologiåtgärder). När du uppmanas ange antal sekunder innan topologin stoppas, anger du 10. När tidsgränsen uppnåtts visas topologin inte längre när du går in på avsnittet Storm UI (Storm-användargränssnitt) på instrumentpanelen.

Rensa resurser

När du har slutfört snabbstarten kanske du vill ta bort klustret. Med HDInsight lagras dina data i Azure Storage så att du på ett säkert sätt kan ta bort ett kluster när det inte används. Du debiteras också för ett HDInsight-kluster, även när det inte används. Eftersom avgifterna för klustret är flera gånger större än avgifterna för lagring är det ekonomiskt sett bra att ta bort kluster när de inte används.

Information om hur du tar bort ett kluster finns i Ta bort ett HDInsight-kluster med hjälp av webbläsaren, PowerShell eller Azure CLI.

Nästa steg

I den här snabbstarten använde du ett exempel från Apache storm-starter-projektet för att skapa och övervaka en Apache Storm-topologi till ett Apache Storm kluster. Gå vidare till nästa artikel om du vill lära dig grunderna för att hantera och övervaka Apache Storm topologier.