Share via


Integrer OneLake med Azure HDInsight

Azure HDInsight er en administreret cloudbaseret tjeneste til big data-analyser, der hjælper organisationer med at behandle store mængder data. I dette selvstudium kan du se, hvordan du opretter forbindelse til OneLake med en Jupyter-notesbog fra en Azure HDInsight-klynge.

Brug af Azure HDInsight

Sådan opretter du forbindelse til OneLake med en Jupyter-notesbog fra en HDInsight-klynge:

  1. Opret en HDInsight (HDI) Spark-klynge. Følg disse instruktioner: Konfigurer klynger i HDInsight.

    1. Husk dit brugernavn og din adgangskode til klyngelogon, mens du angiver klyngeoplysninger, da du skal have dem til at få adgang til klyngen senere.

    2. Opret en bruger tildelt administreret identitet (UAMI): Opret til Azure HDInsight – UAMI , og vælg den som identitet på skærmen Storage .

      Skærmbillede, der viser, hvor den bruger, der har fået tildelt en administreret identitet, skal angives på skærmen Lager.

  2. Giv denne UAMI-adgang til det Fabric-arbejdsområde, der indeholder dine elementer. Hvis du vil have hjælp til at beslutte, hvilken rolle der er bedst, skal du se Arbejdsområderoller.

    Skærmbillede, der viser, hvor du kan vælge et element i panelet Administrer adgang.

  3. Gå til dit lakehouse, og find navnet på dit arbejdsområde og lakehouse. Du kan finde dem i URL-adressen til dit lakehouse eller ruden Egenskaber for en fil.

  4. I Azure-portal skal du kigge efter din klynge og vælge notesbogen.

    Skærmbillede, der viser, hvor du kan finde din klynge og notesbog i Azure-portal.

  5. Angiv de legitimationsoplysninger, du har angivet under oprettelse af klyngen.

    Skærmbillede, der viser, hvor du kan angive dine legitimationsoplysninger.

  6. Opret en ny Spark-notesbog.

  7. Kopiér navnene på arbejdsområdet og lakehouse til din notesbog, og byg OneLake URL-adressen til dit lakehouse. Nu kan du læse en hvilken som helst fil fra denne filsti.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Prøv at skrive nogle data i lakehouse.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Test, at dine data blev skrevet ved at kontrollere dit lakehouse eller ved at læse din nyligt indlæste fil.

Du kan nu læse og skrive data i OneLake ved hjælp af din Jupyter-notesbog i en HDI Spark-klynge.