Integrowanie usługi OneLake z usługą Azure HDInsight

Azure HDInsight to zarządzana usługa oparta na chmurze do analizy danych big data, która pomaga organizacjom przetwarzać duże ilości danych. W tym samouczku pokazano, jak nawiązać połączenie z usługą OneLake przy użyciu notesu Jupyter z klastra usługi Azure HDInsight.

Korzystanie z usługi Azure HDInsight

Aby nawiązać połączenie z usługą OneLake przy użyciu notesu Jupyter z klastra usługi HDInsight:

  1. Utwórz klaster Spark usługi HDInsight (HDI). Postępuj zgodnie z następującymi instrukcjami: Konfigurowanie klastrów w usłudze HDInsight.

    1. Podając informacje o klastrze, pamiętaj nazwę użytkownika i hasło logowania klastra, ponieważ będą one potrzebne do uzyskania dostępu do klastra później.

    2. Utwórz tożsamość zarządzaną przypisaną przez użytkownika (UAMI): utwórz dla usługi Azure HDInsight — UAMI i wybierz ją jako tożsamość na ekranie Magazynu .

      Zrzut ekranu przedstawiający miejsce wprowadzania tożsamości zarządzanej przypisanej przez użytkownika na ekranie Magazyn.

  2. Nadaj temu interfejsowi użytkownika dostęp do obszaru roboczego Sieć szkieletowa, który zawiera elementy. Aby uzyskać pomoc przy podejmowaniu decyzji o tym, jaka rola jest najlepsza, zobacz Role obszaru roboczego.

    Zrzut ekranu przedstawiający miejsce wybierania elementu w panelu Zarządzanie dostępem.

  3. Przejdź do lakehouse i znajdź nazwę obszaru roboczego i lakehouse. Można je znaleźć w adresie URL usługi Lakehouse lub okienku Właściwości dla pliku.

  4. W witrynie Azure Portal wyszukaj klaster i wybierz notes.

    Zrzut ekranu przedstawiający miejsce znalezienia klastra i notesu w witrynie Azure Portal.

  5. Wprowadź informacje o poświadczeniach podane podczas tworzenia klastra.

    Zrzut ekranu przedstawiający miejsce wprowadzania informacji o poświadczeniach.

  6. Utwórz nowy notes platformy Spark.

  7. Skopiuj nazwy obszaru roboczego i lakehouse do notesu i skompiluj adres URL usługi OneLake dla usługi Lakehouse. Teraz możesz odczytać dowolny plik z tej ścieżki pliku.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Spróbuj zapisać dane w lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Przetestuj, czy dane zostały pomyślnie zapisane, sprawdzając magazyn lakehouse lub odczytując nowo załadowany plik.

Teraz możesz odczytywać i zapisywać dane w usłudze OneLake przy użyciu notesu Jupyter w klastrze spark usługi HDI.