Samouczek: tworzenie notesu Jupyter w usłudze Azure Cosmos DB for NoSQL w celu analizowania i wizualizowania danych (wersja zapoznawcza)

DOTYCZY: NoSQL

Ostrzeżenie

Funkcja notesów Jupyter Notebooks usługi Azure Cosmos DB zostanie wycofana 30 marca 2024 r. Nie będzie można używać wbudowanych notesów Jupyter z konta usługi Azure Cosmos DB. Zalecamy korzystanie z obsługi notesów Jupyter lub preferowanego klienta notesów programu Visual Studio Code.

W tym samouczku przedstawiono sposób używania funkcji notesów Jupyter Notebooks usługi Azure Cosmos DB do importowania przykładowych danych detalicznych do konta usługi Azure Cosmos DB for NoSQL. Zobaczysz, jak używać poleceń magicznych usługi Azure Cosmos DB do uruchamiania zapytań, analizowania danych i wizualizowania wyników.

Wymagania wstępne

Tworzenie nowego notesu

W tej sekcji utworzysz bazę danych, kontener usługi Azure Cosmos i zaimportujesz dane detaliczne do kontenera.

  1. Przejdź do konta usługi Azure Cosmos DB i otwórz Eksploratora danych.

  2. Wybierz pozycję Nowy notes.

    Screenshot of the Data Explorer with the 'New Notebook' option highlighted.

  3. W wyświetlonym oknie dialogowym potwierdzenia wybierz pozycję Utwórz.

    Uwaga

    Zostanie utworzony tymczasowy obszar roboczy umożliwiający pracę z notesami Jupyter Notebook. Po wygaśnięciu sesji wszystkie notesy w obszarze roboczym zostaną usunięte.

  4. Wybierz jądro, którego chcesz użyć dla notesu.

Napiwek

Po utworzeniu nowego notesu możesz zmienić jego nazwę na podobną do VisualizeRetailData.ipynb.

Tworzenie bazy danych i kontenera przy użyciu zestawu SDK

  1. Rozpocznij w domyślnej komórce kodu.

  2. Zaimportuj wszystkie wymagane pakiety na potrzeby tego samouczka.

    import azure.cosmos
    from azure.cosmos.partition_key import PartitionKey
    
  3. Utwórz bazę danych o nazwie RetailIngest przy użyciu wbudowanego zestawu SDK.

    database = cosmos_client.create_database_if_not_exists('RetailIngest')
    
  4. Utwórz kontener o nazwie WebsiteMetrics z kluczem /CartIDpartycji .

    container = database.create_container_if_not_exists(id='WebsiteMetrics', partition_key=PartitionKey(path='/CartID'))
    
  5. Wybierz pozycję Uruchom , aby utworzyć bazę danych i zasób kontenera.

    Screenshot of the 'Run' option in the menu.

Importowanie danych przy użyciu poleceń magic

  1. Dodaj nową komórkę kodu.

  2. W komórce kodu dodaj następujące polecenie magic, aby przekazać dane JSON z tego adresu URL do istniejącego kontenera: https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json

    %%upload --databaseName RetailIngest --containerName WebsiteMetrics --url https://cosmosnotebooksdata.blob.core.windows.net/notebookdata/websiteData.json
    
  3. Wybierz pozycję Uruchom aktywną komórkę , aby uruchomić polecenie tylko w tej konkretnej komórce.

    Screenshot of the 'Run Active Cell' option in the menu.

    Uwaga

    Wykonanie polecenia importu powinno potrwać od 5 do 10 sekund.

  4. Obserwuj dane wyjściowe z polecenia run. Upewnij się, że zaimportowano 2654 dokumenty.

    Documents successfully uploaded to WebsiteMetrics
    Total number of documents imported:
      Success: 2654
      Failure: 0
    Total time taken : 00:00:04 hours
    Total RUs consumed : 27309.660000001593
    

Wizualizacja danych

  1. Utwórz kolejną nową komórkę kodu.

  2. W komórce kodu użyj zapytania SQL, aby wypełnić ramkę danych Biblioteki Pandas.

    %%sql --database RetailIngest --container WebsiteMetrics --output df_cosmos
    SELECT c.Action, c.Price as ItemRevenue, c.Country, c.Item FROM c
    
  3. Wybierz pozycję Uruchom aktywną komórkę , aby uruchomić polecenie tylko w tej konkretnej komórce.

  4. Utwórz kolejną nową komórkę kodu.

  5. W komórce kodu wyprowadź 10 pierwszych elementów z ramki danych.

    df_cosmos.head(10)
    
  6. Wybierz pozycję Uruchom aktywną komórkę , aby uruchomić polecenie tylko w tej konkretnej komórce.

  7. Zwróć uwagę na dane wyjściowe uruchomienia polecenia .

    Akcja ItemRevenue Kraj Produkt
    0 Zakupione 19.99 Macedonia Koszula z guzikiem
    1 Wyświetlono 12,00 Papua Nowa Gwinea Naszyjnik
    2 Wyświetlono 25.00 Słowacja (Republika Słowacka) Sweter kardiganowy
    3 Zakupione 14.00 Senegal Przerzucanie butów Flop
    4 Wyświetlono 50.00 Panama Szorty denimowe
    5 Wyświetlono 14.00 Senegal Przerzucanie butów Flop
    6 Dodano 14.00 Senegal Przerzucanie butów Flop
    7 Dodano 50.00 Panama Szorty denimowe
    8 Zakupione 33,00 Autonomia Palestyńska Czerwony górny
    9 Wyświetlono 30.00 Malta Zielony sweter
  8. Utwórz kolejną nową komórkę kodu.

  9. W komórce kodu zaimportuj pakiet pandas , aby dostosować dane wyjściowe ramki danych.

    import pandas as pd
    pd.options.display.html.table_schema = True
    pd.options.display.max_rows = None
    
    df_cosmos.groupby("Item").size()
    
  10. Wybierz pozycję Uruchom aktywną komórkę , aby uruchomić polecenie tylko w tej konkretnej komórce.

  11. W danych wyjściowych wybierz opcję Wykres liniowy, aby wyświetlić inną wizualizację danych.

    Screenshot of the Pandas dataframe visualization for the data as a line chart.

Utrwalanie notesu

  1. W sekcji Notesy otwórz menu kontekstowe notesu utworzonego na potrzeby tego samouczka i wybierz pozycję Pobierz.

    Screenshot of the notebook context menu with the 'Download' option.

    Napiwek

    Aby trwale zapisać swoją pracę, zapisz notesy w repozytorium GitHub lub pobierz notesy na komputer lokalny przed zakończeniem sesji.

Następne kroki