Share via


OneLaken integrointi Azure HDInsightiin

Azure HDInsight on hallittu pilvipohjainen massadata-analytiikan palvelu, joka auttaa organisaatioita käsittelemään suuria määriä tietoja. Tässä opetusohjelmassa kerrotaan, miten voit muodostaa yhteyden OneLakeen Azure HDInsight -klusterin Jupyter-muistikirjalla.

Azure HDInsightin käyttäminen

Yhteyden muodostaminen OneLakeen HDInsight-klusterin Jupyter-muistikirjalla:

  1. Luo HDInsight (HDI) Spark -klusteri. Noudata näitä ohjeita: Määritä klusterit HDInsightissa.

    1. Muista klusterin tiedot tarjotessasi klusterin kirjautumisnimi ja salasana, sillä tarvitset niitä käyttämään klusteria myöhemmin.

    2. Luo käyttäjä, jolle on määritetty hallitut käyttäjätiedot (UAMI): Luo Azure HDInsightille - UAMI ja valitse se käyttäjätietoina Tallennus näytössä.

      Näyttökuva, jossa näkyy, minne syötetään määritetyt hallitut käyttäjätiedot Tallennus-näytössä.

  2. Anna tälle UAMI-käyttöoikeudelle fabric-työtila, joka sisältää kohteesi. Jos haluat lisätietoja siitä, mikä rooli on paras, katso Työtilan roolit.

    Näyttökuva, jossa näkyy kohteen valinta Käyttöoikeuksien hallinta -paneelissa.

  3. Siirry Lakehouse-laitteeseesi ja etsi työtilasi nimi ja Lakehouse. Ne löytyvät Lakehousen URL-osoitteesta tai tiedoston Ominaisuudet-ruudusta .

  4. Etsi Azure-portaali klusterisi ja valitse muistikirja.

    Näyttökuva, jossa näkyy, mistä klusteri ja muistikirja löytyvät Azure-portaali.

  5. Anna klusterin luomisen aikana antamasi tunnistetiedot.

    Näyttökuva, jossa näkyy tunnistetietojen syöttämistä.

  6. Luo uusi Spark-muistikirja.

  7. Kopioi työtilan ja Lakehousen nimet muistikirjaasi ja luo OneLake-URL-osoite Lakehouseasi varten. Nyt voit lukea minkä tahansa tiedoston tästä tiedostopolusta.

    fp = 'abfss://' + 'Workspace Name' + '@onelake.dfs.fabric.microsoft.com/' + 'Lakehouse Name' + '/Files/' 
    df = spark.read.format("csv").option("header", "true").load(fp + "test1.csv") 
    df.show()
    
  8. Yritä kirjoittaa tietoja Lakehouseen.

    writecsvdf = df.write.format("csv").save(fp + "out.csv") 
    
  9. Testaa, että tietosi on kirjoitettu onnistuneesti tarkistamalla Lakehouse-tallennustilasi tai lukemalla juuri ladattu tiedostosi.

Voit nyt lukea ja kirjoittaa tietoja OneLakessa käyttämällä Jupyter-muistikirjaasi HDI Spark -klusterissa.