Share via


Tutorial: Erstellen eines Jupyter Notebooks in Azure Cosmos DB for NoSQL zum Analysieren und Visualisieren der Daten (Vorschau)

GILT FÜR: NoSQL

Warnung

Das Jupyter-Notebooks Feature von Azure Cosmos DB wird am 30. März 2024 eingestellt; Sie können dann keine integrierten Jupyter-Notebooks aus dem Azure Cosmos DB-Konto mehr verwenden. Sie sollten Visual Studio Code-Unterstützung für Jupyter-Notebooks oder Ihren bevorzugten Notebook-Client verwenden.

In diesem Tutorial wird beschrieben, wie Sie das Jupyter Notebooks-Feature von Azure Cosmos DB verwenden, um exemplarische Einzelhandelsdaten in ein Azure Cosmos DB for NoSQL-Konto zu importieren. Sie erfahren, wie Sie die Magic-Befehle von Azure Cosmos DB verwenden, um Abfragen auszuführen, die Daten zu analysieren und die Ergebnisse zu visualisieren.

Voraussetzungen

Erstellen eines neuen Notebooks

In diesem Abschnitt erstellen Sie die Azure Cosmos-Datenbank sowie den Container und importieren die Einzelhandelsdaten in den Container.

  1. Navigieren Sie zu Ihrem Azure Cosmos DB-Konto, und öffnen Sie den Daten-Explorer.

  2. Klicken Sie auf Neues Notebook.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. Wählen Sie im angezeigten Bestätigungsdialogfeld Erstellen aus.

    Hinweis

    Es wird ein temporärer Arbeitsbereich erstellt, damit Sie mit Jupyter Notebooks arbeiten können. Wenn die Sitzung abläuft, werden alle Notebooks im Arbeitsbereich entfernt.

  4. Wählen Sie den Kernel aus, den Sie für das Notebook verwenden möchten.

Tipp

Nachdem das neue Notebook erstellt wurde, können Sie es z. B. in VisualizeRetailData.ipynb umbenennen.

Erstellen einer Datenbank und eines Containers mit dem SDK

  1. Beginnen Sie in der Standardcodezelle.

  2. Importieren Sie alle Pakete, die Sie für dieses Tutorial benötigen.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Erstellen Sie mit dem integrierten SDK eine Datenbank namens RetailIngest.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Erstellen Sie einen Container namens WebsiteMetrics mit einem Partitionsschlüssel von /CartID.

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Wählen Sie Ausführen aus, um die Datenbank und die Containerressource zu erstellen.

    Screenshot of the 'Run' option in the menu.

Importieren von Daten mithilfe von Magic-Befehlen

  1. Fügen Sie eine neue Codezelle hinzu.

  2. Fügen Sie in der Codezelle den folgenden Magic-Befehl hinzu, um die JSON-Daten von der URL https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json in den vorhandenen Container hochzuladen.

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.

    Screenshot of the 'Run Active Cell' option in the menu.

    Hinweis

    Die Ausführung des Importbefehls sollte 5-10 Sekunden dauern.

  4. Beachten Sie die Ausgabe des Ausführungsbefehls. Vergewissern Sie sich, dass 2.654 Dokumente importiert wurden.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Visualisieren Ihrer Daten

  1. Erstellen Sie eine weitere neue Codezelle.

  2. Verwenden Sie in der Codezelle eine SQL-Abfrage, um einen Pandas DataFrame zu erstellen.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.

  4. Erstellen Sie eine weitere neue Codezelle.

  5. Geben Sie in der Codezelle die oberen 10 Dataframe-Elemente aus.

    df_cosmos.head(10)
    
  6. Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.

  7. Beobachten Sie die Ausgabe der Befehlsausführung.

    Aktion ItemRevenue Land Element
    0 Erworben 19.99 Nordmazedonien Button-Up Shirt
    1 Angezeigt 12.00 Papua-Neuguinea Necklace
    2 Angezeigt 25.00 Slowakei (Slowakei) Cardigan Sweater
    3 Erworben 14.00 Senegal Flip Flop Shoes
    4 Angezeigt 50,00 Panama Denim Shorts
    5 Angezeigt 14.00 Senegal Flip Flop Shoes
    6 Hinzugefügt 14.00 Senegal Flip Flop Shoes
    7 Hinzugefügt 50,00 Panama Denim Shorts
    8 Erworben 33,00 Palästinensische Gebiete Red Top
    9 Angezeigt 30,00 Malta Green Sweater
  8. Erstellen Sie eine weitere neue Codezelle.

  9. Importieren Sie in der Codezelle das pandas-Paket, um die Dataframe-Ausgabe anzupassen.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.

  11. Wählen Sie in der Ausgabe die Liniendiagramm-Option aus, um eine andere Visualisierung der Daten anzuzeigen.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Speichern des Notebooks

  1. Öffnen Sie im Abschnitt Notebooks das Kontextmenü für das Notebook, das Sie für dieses Tutorial erstellt haben, und wählen Sie Herunterladen aus.

    Screenshot of the notebook context menu with the 'Download' option.

    Tipp

    Speichern Sie Ihre Notebooks in einem GitHub-Repository oder laden Sie die Notebooks auf Ihren lokalen Computer herunter, bevor die Sitzung endet, um Ihre Arbeit dauerhaft zu speichern.

Nächste Schritte