Samouczek: wykonywanie zapytań dotyczących bazy danych KQL przy użyciu notesu z platformą Apache Spark

Notesy to zarówno czytelne dokumenty zawierające opisy analizy danych, jak i wyniki, a także dokumenty wykonywalne, które można uruchomić w celu przeprowadzenia analizy danych. Z tego artykułu dowiesz się, jak używać notesu usługi Microsoft Fabric do odczytywania i zapisywania danych w bazie danych KQL przy użyciu platformy Apache Spark. W tym samouczku użyto wstępnie utworzonych zestawów danych i notesów zarówno w środowisku analizy w czasie rzeczywistym, jak i środowiskach inżynierowie danych ing w usłudze Microsoft Fabric. Aby uzyskać więcej informacji na temat notesów, zobacz How to use Microsoft Fabric notebooks (Jak używać notesów usługi Microsoft Fabric).

W szczególności dowiesz się, jak wykonywać następujące działania:

  • Tworzenie bazy danych KQL
  • Importowanie notesu
  • Zapisywanie danych w bazie danych KQL przy użyciu platformy Apache Spark
  • Wykonywanie zapytań dotyczących danych z bazy danych KQL

Wymagania wstępne

1 — Tworzenie bazy danych KQL

  1. Otwórz przełącznik środowiska w dolnej części okienka nawigacji i wybierz pozycję Analiza w czasie rzeczywistym.

  2. Wybierz kafelek Baza danych KQL.

    Zrzut ekranu przedstawiający nowy kafelek bazy danych KQL w funkcji Analizy w czasie rzeczywistym.

  3. W polu Nazwa bazy danych KQL wprowadź ciąg nycGreenTaxi, a następnie wybierz pozycję Utwórz.

    Baza danych KQL została utworzona w kontekście wybranego obszaru roboczego.

  4. Skopiuj identyfikator URI zapytania z karty szczegółów bazy danych na pulpicie nawigacyjnym bazy danych i wklej go gdzieś, jak notatnik, aby użyć go w późniejszym kroku.

     Zrzut ekranu przedstawiający kartę szczegółów bazy danych zawierającą szczegóły bazy danych. Wyróżniono opcję Identyfikator URI zapytania o nazwie Kopiuj identyfikator URI.

2 — Pobieranie notesu NYC GreenTaxi

Utworzyliśmy przykładowy notes, który przeprowadzi Cię przez wszystkie niezbędne kroki ładowania danych do bazy danych przy użyciu łącznika Spark.

  1. Otwórz repozytorium przykładów sieci Szkieletowej w witrynie GitHub, aby pobrać notes KQL GreenTaxi w Nowym Jorku.

    Zrzut ekranu przedstawiający repozytorium GitHub z notesem NYC GreenTaxi. Opcja Raw (Nieprzetworzone) jest wyróżniona.

  2. Zapisz notes lokalnie na urządzeniu.

    Uwaga

    Notes musi być zapisany w .ipynb formacie pliku.

3 — Importowanie notesu

Pozostała część tego przepływu pracy występuje w sekcji inżynierowie danych produktu i używa notesu platformy Spark do ładowania i wykonywania zapytań dotyczących danych w bazie danych KQL.

  1. Otwórz przełącznik środowiska w dolnej części okienka nawigacji i wybierz pozycję inżynierowie danych ing.

  2. Wybierz pozycję Importuj notes.

    Zrzut ekranu przedstawiający opcje elementów w inżynierowie danych. Wyróżniono element o nazwie Notes importu.

  3. W oknie Stan importu wybierz pozycję Przekaż.

    Zrzut ekranu przedstawiający okno Stan importu. Przycisk o nazwie Przekaż jest wyróżniony.

  4. Wybierz notes NYC GreenTaxi pobrany w poprzednim kroku.

  5. Po zakończeniu importowania wróć do obszaru roboczego, aby otworzyć ten notes.

4 — Pobieranie danych

Aby wykonać zapytanie dotyczące bazy danych przy użyciu łącznika Spark, musisz udzielić dostępu do odczytu i zapisu kontenerowi obiektów blob NYC GreenTaxi.

Wybierz przycisk odtwarzania, aby uruchomić następujące komórki, lub wybierz komórkę i naciśnij klawisze Shift+ Enter. Powtórz ten krok dla każdej komórki kodu.

Uwaga

Poczekaj na wyświetlenie znacznika wyboru ukończenia przed uruchomieniem następnej komórki.

  1. Uruchom następującą komórkę, aby włączyć dostęp do kontenera obiektów blob GreenTaxi w Nowym Jorku.

    Zrzut ekranu przedstawiający pierwszą komórkę kodu z informacjami o dostępie do magazynu.

  2. W polu KustoURI wklej skopiowany wcześniej identyfikator URIzapytania zamiast tekstu zastępczego.

  3. Zmień nazwę zastępczej bazy danych na nycGreenTaxi.

  4. Zmień nazwę tabeli zastępczej na GreenTaxiData.

    Zrzut ekranu przedstawiający drugą komórkę kodu z informacjami o docelowej bazie danych. Wyróżniono identyfikator URI zapytania, nazwę bazy danych i nazwę tabeli.

  5. Uruchom komórkę.

  6. Uruchom następną komórkę, aby zapisać dane w bazie danych. Wykonanie tego kroku może potrwać kilka minut.

    Zrzut ekranu przedstawiający trzecią komórkę kodu z poleceniem mapowania tabeli i pozyskiwania.

Baza danych zawiera teraz dane załadowane w tabeli o nazwie GreenTaxiData.

5 — Uruchamianie notesu

Uruchom pozostałe dwie komórki sekwencyjnie, aby wykonać zapytanie o dane z tabeli. Wyniki pokazują 20 najlepszych i najniższych opłat za taksówki i odległości odnotowane według roku.

Zrzut ekranu przedstawiający czwartą i piątą komórkę kodu z wynikami zapytania.

6 — Czyszczenie zasobów

Wyczyść utworzone elementy, przechodząc do obszaru roboczego, w którym zostały utworzone.

  1. W obszarze roboczym umieść kursor nad notesem, który chcesz usunąć, wybierz menu Więcej [...] >Usuń.

    Zrzut ekranu przedstawiający obszar roboczy przedstawiający menu rozwijane notesu GreenTaxi w Nowym Jorku. Opcja o nazwie Usuń jest wyróżniona.

  2. Wybierz Usuń. Nie można odzyskać notesu po jego usunięciu.