Kosten- en prestatieproblemen vaststellen met behulp van de Spark-gebruikersinterface

In deze handleiding wordt uitgelegd hoe u de Spark-gebruikersinterface gebruikt om kosten- en prestatieproblemen vast te stellen. Het is een stapsgewijze handleiding en het is een praktische procedure. In plaats van alleen een uitleg te geven over wat elke pagina in de Spark-gebruikersinterface doet, wordt uitgelegd wat u moet zoeken en wat dit betekent. Als u niet bekend bent met de concepten van stuurprogramma's, werkrollen, uitvoerders, fasen en taken, kunt u de Spark-architectuur bekijken.

Als u op zoek bent naar een uitgebreide lijst met verschillende optimalisatiehulpprogramma's, gebruikt u de Databricks Optimization-handleiding. In deze Spark UI-handleiding wordt verwezen naar secties van de optimalisatiehandleiding.

Gebruik van deze handleiding

Als u door de handleiding wilt navigeren, gebruikt u de koppelingen die zijn ingesloten op elke pagina om naar de volgende stap te gaan. De handleiding bevat de volgende stappen in volgorde:

  1. Gebruik de tijdlijn taken om belangrijke problemen te identificeren
  2. Bekijk de langste fase
  3. Zoeken naar scheefheid of overloop
  4. Bepalen of de langste fase I/O-gebonden is
  5. Zoek naar andere oorzaken van trage runtime van de fase

Laten we aan de slag gaan.

De Spark-gebruikersinterface openen

  1. Ga naar de pagina van uw cluster:

    Navigeren naar Compute

  2. Klik op Spark-gebruikersinterface:

    Navigeren naar SparkUI

Volgende stap

Nu u de Spark-gebruikersinterface hebt geopend, bekijkt u vervolgens de tijdlijn van de gebeurtenis voor meer informatie over uw pijplijn of query. Zie de tijdlijn Taken.