Tutorial: Erstellen eines Jupyter Notebooks in Azure Cosmos DB for NoSQL zum Analysieren und Visualisieren der Daten (Vorschau)
GILT FÜR: NoSQL
Warnung
Das Jupyter-Notebooks Feature von Azure Cosmos DB wird am 30. März 2024 eingestellt; Sie können dann keine integrierten Jupyter-Notebooks aus dem Azure Cosmos DB-Konto mehr verwenden. Sie sollten Visual Studio Code-Unterstützung für Jupyter-Notebooks oder Ihren bevorzugten Notebook-Client verwenden.
In diesem Tutorial wird beschrieben, wie Sie das Jupyter Notebooks-Feature von Azure Cosmos DB verwenden, um exemplarische Einzelhandelsdaten in ein Azure Cosmos DB for NoSQL-Konto zu importieren. Sie erfahren, wie Sie die Magic-Befehle von Azure Cosmos DB verwenden, um Abfragen auszuführen, die Daten zu analysieren und die Ergebnisse zu visualisieren.
Voraussetzungen
- Ein vorhandenes Azure Cosmos DB for NoSQL-Konto
- Falls Sie bereits über ein vorhandenes Azure-Abonnement verfügen, erstellen Sie ein neues Konto.
- Kein Azure-Abonnement? Sie können Azure Cosmos DB kostenlos testen, ohne dass eine Kreditkarte erforderlich ist.
Erstellen eines neuen Notebooks
In diesem Abschnitt erstellen Sie die Azure Cosmos-Datenbank sowie den Container und importieren die Einzelhandelsdaten in den Container.
Navigieren Sie zu Ihrem Azure Cosmos DB-Konto, und öffnen Sie den Daten-Explorer.
Klicken Sie auf Neues Notebook.
Wählen Sie im angezeigten Bestätigungsdialogfeld Erstellen aus.
Hinweis
Es wird ein temporärer Arbeitsbereich erstellt, damit Sie mit Jupyter Notebooks arbeiten können. Wenn die Sitzung abläuft, werden alle Notebooks im Arbeitsbereich entfernt.
Wählen Sie den Kernel aus, den Sie für das Notebook verwenden möchten.
Tipp
Nachdem das neue Notebook erstellt wurde, können Sie es z. B. in VisualizeRetailData.ipynb umbenennen.
Erstellen einer Datenbank und eines Containers mit dem SDK
Beginnen Sie in der Standardcodezelle.
Importieren Sie alle Pakete, die Sie für dieses Tutorial benötigen.
import azure.cosmos from azure.cosmos.partition_key import PartitionKey
Erstellen Sie mit dem integrierten SDK eine Datenbank namens RetailIngest.
database = cosmos_client.create_database_if_not_exists('RetailIngest')
Erstellen Sie einen Container namens WebsiteMetrics mit einem Partitionsschlüssel von
/CartID
.container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
Wählen Sie Ausführen aus, um die Datenbank und die Containerressource zu erstellen.
Importieren von Daten mithilfe von Magic-Befehlen
Fügen Sie eine neue Codezelle hinzu.
Fügen Sie in der Codezelle den folgenden Magic-Befehl hinzu, um die JSON-Daten von der URL https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json in den vorhandenen Container hochzuladen.
%%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.
Hinweis
Die Ausführung des Importbefehls sollte 5-10 Sekunden dauern.
Beachten Sie die Ausgabe des Ausführungsbefehls. Vergewissern Sie sich, dass 2.654 Dokumente importiert wurden.
Documents successfully uploaded to WebsiteMetrics Total number of documents imported: Success: 2654 Failure: 0 Total time taken : 00:00:04 hours Total RUs consumed : 27309.660000001593
Visualisieren Ihrer Daten
Erstellen Sie eine weitere neue Codezelle.
Verwenden Sie in der Codezelle eine SQL-Abfrage, um einen Pandas DataFrame zu erstellen.
%%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.
Erstellen Sie eine weitere neue Codezelle.
Geben Sie in der Codezelle die oberen 10 Dataframe-Elemente aus.
df_cosmos.head(10)
Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.
Beobachten Sie die Ausgabe der Befehlsausführung.
Aktion ItemRevenue Land Element 0 Erworben 19.99 Nordmazedonien Button-Up Shirt 1 Angezeigt 12.00 Papua-Neuguinea Necklace 2 Angezeigt 25.00 Slowakei (Slowakei) Cardigan Sweater 3 Erworben 14.00 Senegal Flip Flop Shoes 4 Angezeigt 50,00 Panama Denim Shorts 5 Angezeigt 14.00 Senegal Flip Flop Shoes 6 Hinzugefügt 14.00 Senegal Flip Flop Shoes 7 Hinzugefügt 50,00 Panama Denim Shorts 8 Erworben 33,00 Palästinensische Gebiete Red Top 9 Angezeigt 30,00 Malta Green Sweater Erstellen Sie eine weitere neue Codezelle.
Importieren Sie in der Codezelle das pandas-Paket, um die Dataframe-Ausgabe anzupassen.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
Wählen Sie Aktive Zelle ausführen aus, um den Befehl nur in dieser Zelle auszuführen.
Wählen Sie in der Ausgabe die Liniendiagramm-Option aus, um eine andere Visualisierung der Daten anzuzeigen.
Speichern des Notebooks
Öffnen Sie im Abschnitt Notebooks das Kontextmenü für das Notebook, das Sie für dieses Tutorial erstellt haben, und wählen Sie Herunterladen aus.
Tipp
Speichern Sie Ihre Notebooks in einem GitHub-Repository oder laden Sie die Notebooks auf Ihren lokalen Computer herunter, bevor die Sitzung endet, um Ihre Arbeit dauerhaft zu speichern.