Quickstart voor Delta Live Tables

Belangrijk

Deze functie is beschikbaar als openbare preview. Zie Toegang aanvragen tot Delta Live Tables om u aan te melden voor toegang.

U kunt eenvoudig een Delta Live Tables-pijplijn maken en uitvoeren met behulp van Azure Databricks notebook. In dit artikel wordt gedemonstreerd hoe u een Delta Live Tables-pijplijn gebruikt op een gegevensset met Wikipedia-clickstreamgegevens om:

  • Lees de onbewerkte JSON-clickstreamgegevens in een tabel.
  • Lees de records uit de tabel met onbewerkte gegevens en gebruik verwachtingen voor Delta Live Tables om een nieuwe tabel te maken die opschoonde gegevens bevat.
  • Gebruik de records uit de opschoongegevenstabel om Delta Live Tables-query's te maken waarmee afgeleide gegevenssets worden gemaakt.

In deze snelstart, gaat u het volgende doen:

  1. Maak een nieuw notebook en voeg de code toe om de pijplijn te implementeren.
  2. Maak een nieuwe pijplijn-taak met behulp van het notebook.
  3. Start een update van de pijplijn-taak.
  4. Bekijk de resultaten van de pijplijn-taak.

Vereisten

U moet een machtiging voor het maken van een cluster hebben om een pijplijn te starten. De Delta Live Tables-runtime maakt een cluster voordat de pijplijn wordt uitgevoerd en mislukt als u niet de juiste machtiging hebt.

Een notebook maken

U kunt een voorbeeldnotenote gebruiken of een nieuw notebook maken om de Delta Live Tables-pijplijn uit te voeren:

  1. Ga naar uw Azure Databricks landingspagina en selecteer Leeg notebook maken.

  2. Geef in het dialoogvenster Notitieblok maken uw notebook een naam en selecteer Python of SQL in de vervolgkeuzelijst Standaardtaal. U kunt Cluster ingesteld laten op de standaardwaarde. De Delta Live Tables-runtime maakt een cluster voordat uw pijplijn wordt uitgevoerd.

  3. Klik op Create.

  4. Kopieer het python- of SQL codevoorbeeld en plak deze in uw nieuwe notebook. U kunt de voorbeeldcode toevoegen aan één cel van het notebook of meerdere cellen.

    Notitie

    U moet uw pijplijn starten vanaf het tabblad Delta Live Tables van de gebruikersinterface Taken. Als u op  het pictogram Uitvoeren klikt om de pijplijn uit te voeren, wordt een foutmelding weergegeven.

<a name="code-example"> Codevoorbeeld

Python

import dlt
from pyspark.sql.functions import *
from pyspark.sql.types import *

json_path = &quot;/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json&quot;
@dlt.table(
  comment=&quot;The raw wikipedia clickstream dataset, ingested from /databricks-datasets."
)
def clickstream_raw():
  return (spark.read.json(json_path))

@dlt.table(
  comment="Wikipedia clickstream data cleaned and prepared for analysis."
)
@dlt.expect("valid_current_page_title", "current_page_title IS NOT NULL")
@dlt.expect_or_fail("valid_count", "click_count > 0")
def clickstream_prepared():
  return (
    dlt.read("clickstream_raw")
      .withColumn("click_count", expr("CAST(n AS INT)"))
      .withColumnRenamed("curr_title", "current_page_title")
      .withColumnRenamed("prev_title", "previous_page_title")
      .select("current_page_title", "click_count", "previous_page_title")
  )

@dlt.table(
  comment="A table containing the top pages linking to the Apache Spark page."
)
def top_spark_referrers():
  return (
    dlt.read("clickstream_prepared")
      .filter(expr("current_page_title == 'Apache_Spark'"))
      .withColumnRenamed("previous_page_title", "referrer")
      .sort(desc("click_count"))
      .select("referrer", "click_count")
      .limit(10)
  )

SQL

CREATE LIVE TABLE clickstream_raw
COMMENT "The raw wikipedia clickstream dataset, ingested from /databricks-datasets."
AS SELECT * FROM json.`/databricks-datasets/wikipedia-datasets/data-001/clickstream/raw-uncompressed-json/2015_2_clickstream.json`;

CREATE LIVE TABLE clickstream_prepared(
  CONSTRAINT valid_current_page EXPECT (current_page_title IS NOT NULL),
  CONSTRAINT valid_count EXPECT (click_count > 0) ON VIOLATION FAIL UPDATE
)
COMMENT "Wikipedia clickstream data cleaned and prepared for analysis."
AS SELECT
  curr_title AS current_page_title,
  CAST(n AS INT) AS click_count,
  prev_title AS previous_page_title
FROM live.clickstream_raw;

CREATE LIVE TABLE top_spark_referers
COMMENT "A table containing the top pages linking to the Apache Spark page."
AS SELECT
  previous_page_title as referrer,
  click_count
FROM live.clickstream_prepared
WHERE current_page_title = 'Apache_Spark'
ORDER BY click_count DESC
LIMIT 10;

Een pijplijn maken

Een nieuwe pijplijn maken met behulp van de Delta Live Tables-notebook:

  1. Klik  op Taakpictogram Taken in de zijbalk, klik op het tabblad Pijplijnen en klik op Pijplijn maken.
  2. Geef de pijplijn een naam en klik op Pictogram Bestands kiezen om een notebook te selecteren.
  3. Voer eventueel een opslaglocatie in voor uitvoergegevens uit de pijplijn. Het systeem gebruikt een standaardlocatie als u de Storage leeg laat.
  4. Selecteer Geactiveerd voor Pijplijnmodus.
  5. Klik op Create.

Pijplijn maken

Het systeem geeft de pagina Pijplijndetails weer nadat u op Maken hebt geklikt. U kunt uw pijplijn ook openen door op de naam van de pijplijn te klikken op het tabblad Pijplijnen.

De pijplijn starten

Als u een update voor de nieuwe pijplijn wilt starten, klikt u op de Startpictogram Delta Live Tables in het bovenste deelvenster. Het systeem retourneert een bericht waarin wordt bevestigd dat de pijplijn wordt starten.

Pijplijn starten

Nadat de update is begonnen, wordt het Delta Live Tables-systeem als volgende uitgevoerd:

  1. Start een cluster met behulp van een clusterconfiguratie die is gemaakt door het Delta Live Tables-systeem. U kunt ook een aangepaste clusterconfiguratie opgeven.
  2. Hiermee maakt u tabellen die niet bestaan en zorgt u ervoor dat het schema juist is voor bestaande tabellen.
  3. Werkt tabellen bij met de meest recente beschikbare gegevens.
  4. Sluit het cluster af wanneer de update is voltooid.

U kunt de voortgang van de update volgen door het gebeurtenislogboek onder aan de pagina Pijplijndetails te bekijken.

Gebeurtenislogboek van pijplijn weergeven

Resultaten weergeven

U kunt de gebruikersinterface van Delta Live Tables gebruiken om details van de verwerking van pijplijnen weer te geven. Dit omvat een visuele weergave van de pijplijngrafiek en schema's, en recordverwerkingsgegevens, zoals het aantal verwerkte records en records die niet kunnen worden gevalideerd.

De pijplijngrafiek weergeven

Als u de verwerkingsgrafiek voor uw pijplijn wilt weergeven, klikt u op Graph tabblad. U kunt de muis gebruiken om de weergave of de knoppen Delta Live Tables Graph Knoppenpictogram in de rechterbovenhoek van het  grafiekpaneel aan te passen.

Pijplijngrafiek weergeven

Gegevenssetgegevens weergeven

Klik op een gegevensset om schemagegevens voor de gegevensset weer te geven.

Pijplijnschema weergeven

Verwerkingsdetails weergeven

U kunt de verwerkingsdetails voor elke gegevensset bekijken, zoals het aantal verwerkte records en metrische gegevens over gegevenskwaliteit. Selecteer in het gebeurtenislogboek onder aan de pagina Pijplijndetails de vermelding Voltooid voor een gegevensset en klik op het tabblad JSON.

Details van gebeurtenislogboek weergeven

Pijplijninstellingen weergeven

Klik op Instellingen tabblad om de gegenereerde configuratie voor uw pijplijn weer te maken. Klik op de knop Instellingen bewerken om de pijplijnconfiguratie te wijzigen. Zie Instellingen voor Delta Live Tables voor meer informatie over configuratie-instellingen.

Gegevenssets publiceren

U kunt pijplijnuitvoergegevens beschikbaar maken voor het uitvoeren van query's door tabellen te publiceren naar Azure Databricks metastore:

  1. Klik op de Instellingen bewerken.

  2. Voeg de doelinstelling toe om een databasenaam voor uw tabellen te configureren.

    Databasenaam configureren

  3. Klik op Opslaan.

  4. Klik op het pictogram Startpictogram Delta Live Tables om een nieuwe update voor uw pijplijn te starten.

Nadat de update is voltooid, kunt u de databaseen tabellen bekijken, query's uitvoeren op de gegevens of de gegevens gebruiken in downstreamtoepassingen.

Query's uitvoeren op Wikipedia-gegevens

Voorbeeldnotenotes

Deze notebooks bieden Python- en SQL die een Delta Live Tables-pijplijn implementeren om:

  • Onbewerkte JSON-clickstreamgegevens in een tabel lezen.
  • Lees de records uit de tabel met onbewerkte gegevens en gebruik verwachtingen voor Delta Live Tables om een nieuwe tabel te maken die opschoonde gegevens bevat.
  • Gebruik de records uit de opschoongegevenstabel om Delta Live Tables-query's te maken waarmee afgeleide gegevenssets worden gemaakt.

Aan de slag met Python-notebook voor Delta Live Tables

Notebook downloaden

Aan de slag met Delta Live Tables SQL notebook

Notebook downloaden