Analysieren von Daten mit einem serverlosen SQL-Pool

In diesem Tutorial erfahren Sie, wie Sie Daten mit einem serverlosen SQL-Pool analysieren.

Der serverlose SQL-Pool „Built-in“

Mit serverlosen SQL-Pools können Sie SQL verwenden, ohne dass Sie Kapazität reservieren müssen. Die Abrechnung für einen serverlosen SQL-Pool basiert auf der Menge der Daten, die zum Ausführen der Abfrage verarbeitet werden, und nicht auf der Anzahl von Knoten, die zum Ausführen der Abfrage verwendet werden.

Jeder Arbeitsbereich wird mit einem vorkonfigurierten serverlosen SQL-Pool namens Built-in (Integriert) bereitgestellt.

Analysieren von NYC Taxi-Daten mit einem serverlosen SQL-Pool

Hinweis

Stellen Sie sicher, dass Sie die Beispieldaten im primären Speicherkonto platziert haben.

  1. Navigieren Sie in Synapse Studio zum Hub Entwickeln.

  2. Erstellen Sie ein neues SQL-Skript.

  3. Fügen Sie den folgenden Code in das Skript ein:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
            BULK 'https://contosolake.dfs.core.windows.net/users/NYCTripSmall.parquet',
            FORMAT='PARQUET'
        ) AS [result]
    
  4. Klicken Sie auf Ausführen.

Die Datenuntersuchung ist nur ein vereinfachtes Szenario, anhand dessen Sie die grundlegenden Merkmale Ihrer Daten nachvollziehen können. Weitere Informationen zur Datenuntersuchung und -analyse finden Sie in diesem Tutorial.

Erstellen einer Datenbank für die Datenuntersuchung

Sie können den Inhalt der Dateien direkt über die master-Datenbank durchsuchen. Bei einigen einfachen Szenarien zur Datenuntersuchung müssen Sie keine separate Datenbank erstellen. Wenn Sie die Datenuntersuchung fortsetzen, möchten Sie vielleicht jedoch einige Hilfsprogrammobjekte erstellen, etwa:

  • Externe Datenquellen, die die benannten Verweise für Speicherkonten darstellen
  • Datenbankweit gültige Anmeldeinformationen, mit denen Sie angeben können, wie die Authentifizierung bei einer externen Datenquelle durchgeführt werden soll
  • Datenbankbenutzer mit Zugriffsberechtigungen für einige Datenquellen oder Datenbankobjekte
  • Hilfsprogrammsichten, -prozeduren und -funktionen, die Sie in den Abfragen verwenden können
  1. Verwenden Sie die master-Datenbank, um eine separate Datenbank für benutzerdefinierte Datenbankobjekte zu erstellen. Benutzerdefinierte Datenbankobjekte können nicht in der master-Datenbank erstellt werden.

    CREATE DATABASE DataExplorationDB 
                    COLLATE Latin1_General_100_BIN2_UTF8
    

    Wichtig

    Verwenden Sie eine Sortierung mit dem Suffix _UTF8, um sicherzustellen, dass UTF-8-Text ordnungsgemäß in Spalten vom Typ VARCHAR konvertiert wird. Latin1_General_100_BIN2_UTF8 bietet die beste Leistung bei Abfragen, die Daten aus Parquet-Dateien und Cosmos DB-Containern lesen.

  2. Wechseln Sie mithilfe des folgenden Befehls von der „Master“-Datenbank zu DataExplorationDB. Sie können auch das UI-Steuerelement use database (Datenbank verwenden) nutzen, um zu Ihrer aktuellen Datenbank zu wechseln:

    USE DataExplorationDB
    
  3. Erstellen Sie in „DataExplorationDB“ Hilfsprogrammobjekte wie Anmeldeinformationen und Datenquellen.

    CREATE EXTERNAL DATA SOURCE ContosoLake
    WITH ( LOCATION = 'https://contosolake.dfs.core.windows.net')
    

    Hinweis

    Eine externe Datenquelle kann ohne Anmeldeinformationen erstellt werden. Wenn keine Anmeldeinformationen vorhanden sind, wird die Identität des Aufrufers für den Zugriff auf die externe Datenquelle verwendet.

  4. Verwenden Sie optional die neu erstellte Datenbank „DataExplorationDB“, um eine Anmeldung für eine*n Benutzer*in in „DataExplorationDB“ zu erstellen, der*die auf externe Daten zugreifen soll:

    CREATE LOGIN data_explorer WITH PASSWORD = 'My Very Strong Password 1234!';
    

    Erstellen Sie anschließend eine*n Datenbankbenutzer*in in „DataExplorationDB“ für die obige Anmeldung, und erteilen Sie die Berechtigung ADMINISTER DATABASE BULK OPERATIONS.

    CREATE USER data_explorer FOR LOGIN data_explorer;
    GO
    GRANT ADMINISTER DATABASE BULK OPERATIONS TO data_explorer;
    GO
    
  5. Untersuchen Sie den Inhalt der Datei mithilfe des relativen Pfads und der Datenquelle:

    SELECT
        TOP 100 *
    FROM
        OPENROWSET(
                BULK '/users/NYCTripSmall.parquet',
                DATA_SOURCE = 'ContosoLake',
                FORMAT='PARQUET'
        ) AS [result]
    
  6. Veröffentlichen Sie Ihre Änderungen im Arbeitsbereich.

Die Datenbank für die Datenuntersuchung ist nur ein einfacher Platzhalter, in dem Sie Ihre Hilfsprogrammobjekte speichern können. Mit einem Synapse SQL-Pool haben Sie noch weitere Möglichkeiten und können ein logisches Data Warehouse erstellen – eine relationale Ebene, der Azure-Datenquellen zugrunde liegen. Weitere Informationen zum Erstellen eines logischen Data Warehouse finden Sie in diesem Tutorial.

Nächste Schritte