Tutorial: Importieren von Jupyter-Notebooks aus GitHub in Azure Cosmos DB for NoSQL (Vorschau)
GILT FÜR: NoSQL
Warnung
Das Jupyter-Notebooks Feature von Azure Cosmos DB wird am 30. März 2024 eingestellt; Sie können dann keine integrierten Jupyter-Notebooks aus dem Azure Cosmos DB-Konto mehr verwenden. Sie sollten Visual Studio Code-Unterstützung für Jupyter-Notebooks oder Ihren bevorzugten Notebook-Client verwenden.
In diesem Tutorial wird erläutert, wie Jupyter-Notebooks aus einem GitHub-Repository importiert und in einem Azure Cosmos DB for NoSQL-Konto ausgeführt werden. Nachdem Sie die Notebooks importiert haben, können Sie sie ausführen, bearbeiten und ihre Änderungen wieder im gleichen GitHub-Repository speichern.
Voraussetzungen
- Ein vorhandenes Azure Cosmos DB for NoSQL-Konto
- Falls Sie bereits über ein vorhandenes Azure-Abonnement verfügen, erstellen Sie ein neues Konto.
- Kein Azure-Abonnement? Sie können Azure Cosmos DB kostenlos testen, ohne dass eine Kreditkarte erforderlich ist.
Erstellen einer Kopie eines GitHub-Repositorys
Navigieren Sie zum Vorlagenrepository azure-samples/cosmos-db-nosql-notebooks.
Erstellen Sie eine neue Kopie des Vorlagenrepositorys in Ihrem eigenen GitHub-Konto oder Ihrer GitHub-Organisation.
Pullen von Notebooks aus GitHub
Anstatt bei jedem Starten eines Arbeitsbereichs neue Notebooks zu erstellen, können Sie vorhandene Notebooks aus GitHub importieren. In diesem Abschnitt stellen Sie eine Verbindung mit einem vorhandenen GitHub-Repository mit Beispielnotebooks her.
Navigieren Sie zu Ihrem Azure Cosmos DB-Konto, und öffnen Sie den Daten-Explorer.
Wählen Sie Verbindung mit GitHub herstellen aus.
Wählen Sie im Dialogfeld Verbindung mit GitHub herstellen die für Ihr GitHub-Repository geeignete Zugriffsoption und dann Zugriff autorisieren aus.
Führen Sie den GitHub-Autorisierungsworkflow des Drittanbieters durch, der Zugriff auf die Organisationen gewährt, die für den Zugriff auf Ihr GitHub-Repository erforderlich sind. Weitere Informationen finden Sie unter Autorisieren von GitHub-Apps.
Wählen Sie im Dialogfeld GitHub-Einstellungen verwalten das zuvor von Ihnen erstellte GitHub-Repository aus.
Suchen Sie im Daten-Explorer nach der neuen Knotenstruktur für Ihr angeheftetes Repository, und öffnen Sie die Datei website-metrics-python.ipynb.
Suchen Sie im Editor für das Notebook die folgende Zelle.
import pandas as pd pd.options.display.html.table_schema = True pd.options.display.max_rows = None df_cosmos.groupby("Item").size()
Die Zelle gibt derzeit die Anzahl eindeutiger Elemente aus. Ersetzen Sie die letzte Zeile der Zelle durch eine neue Zeile, um die Anzahl eindeutiger Aktionen im Dataset auszugeben.
df_cosmos.groupby("Action").size()
Führen Sie alle Zellen nacheinander aus, um das neue Dataset anzuzeigen. Das neue Dataset sollte nur drei potenzielle Werte für die Spalte Action enthalten. Optional können Sie eine Datenvisualisierung für die Ergebnisse auswählen.
Pushen von Notebookänderungen an GitHub
Tipp
Derzeit wird die Zuordnung temporärer Arbeitsbereiche aufgehoben, wenn sie sich 20 Minuten lang im Leerlauf befinden. Die maximale Nutzungszeit pro Tag beträgt 60 Minuten. Diese Grenzwerte können sich in Zukunft ändern.
Zum dauerhaften Sichern Ihrer Arbeit speichern Sie Ihre Notebooks wieder im GitHub-Repository. In diesem Abschnitt speichern Sie Ihre Änderungen aus dem temporären Arbeitsbereich als einen neuen Commit in GitHub.
Wählen Sie Speichern aus, um einen Commit für Ihre Änderung am Notebook zu erstellen.
Fügen Sie im Dialogfeld Speichern eine beschreibende Commitnachricht hinzu.
Navigieren Sie mit Ihrem Browser zu dem von Ihnen erstellten GitHub-Repository. Der neue Commit sollte jetzt im Onlinerepository zu sehen sein.