Oktatóanyag: Apache Spark-adatok elemzése a POWER BI használatával a HDInsightban

Ebben az oktatóanyagban megtudhatja, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával.

Ebben az oktatóanyagban az alábbiakkal fog megismerkedni:

  • Spark-adatok vizualizációja a Power BI használatával

Ha még nincs Azure-előfizetése, kezdés előtt hozzon létre egy ingyenes fiókot.

Előfeltételek

Az adatok ellenőrzése

Az előző oktatóanyagban létrehozott Jupyter-jegyzetfüzet tartalmaz egy hvac tábla létrehozására szolgáló kódot. Ez a táblázat az összes HDInsight Spark-fürtön elérhető CSV-fájlon alapul.\HdiSamples\HdiSamples\SensorSampleData\hvac\hvac.csv Az adatok ellenőrzéséhez kövesse az alábbi eljárást.

  1. A Jupyter Notebookban illessze be a következő kódot, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód segítségével a táblák meglétét ellenőrizhetjük.

    %%sql
    SHOW TABLES
    

    A kimenet a következőképpen fog kinézni:

    Show tables in Spark.

    Ha az oktatóanyag elindítása előtt már bezárta a notebookot, a hvactemptable törlődik, így az nem szerepel a kimenetben. A BI-eszközökkel csak a metaadattárban tárolt Hive-táblákhoz (ezeket Hamis érték jelzi az isTemporary oszlopban) lehet hozzáférni. Ebben az oktatóanyagban kapcsolatot létesít az Ön által létrehozott HVAC-táblával.

  2. Illessze be a következő kódot egy üres cellába, majd nyomja le a SHIFT + ENTER billentyűkombinációt. A kód elvégzi a tábla adatainak ellenőrzését.

    %%sql
    SELECT * FROM hvac LIMIT 10
    

    A kimenet a következőképpen fog kinézni:

    Show rows from hvac table in Spark.

  3. A notebook File (Fájl) menüjében kattintson a Close and Halt (Bezárás és leállítás) elemre. Állítsa le a notebookot az erőforrások felszabadításához.

Az adatok vizualizációja

Ebben a szakaszban a Power BI-t fogja használni a vizualizációk, jelentések és irányítópultok a Spark-fürt adataiból való létrehozásához.

Jelentés készítése a Power BI Desktopban

A Spark használatba vételének első lépései a csatlakozás a fürthöz a Power BI Desktopban, az adatok betöltése a fürtből, és az ezen adatokon alapuló, alapszintű vizualizáció létrehozása.

  1. Nyissa meg a Power BI Desktopot. Ha megnyílik, zárja be az indítási kezdőképernyőt.

  2. A Kezdőlap lapon navigáljon az Adatok>lekérése tovább...

    Get data into Power BI Desktop from HDInsight Apache Spark.

  3. Írja be Spark a keresőmezőbe, válassza az Azure HDInsight Sparkot, majd válassza a Csatlakozás.

    Get data into Power BI from Apache Spark BI.

  4. Írja be a fürt URL-címét (az űrlapon mysparkcluster.azurehdinsight.net) a Kiszolgáló szövegmezőbe.

  5. Az Adatkapcsolati módban válassza a DirectQuery lehetőséget. Ezután válassza az OK gombra.

    A Sparkkal bármelyik adatkapcsolati módot használhatja. A DirectQuery használatakor a módosítások anélkül jelennek meg a jelentésekben, hogy a teljes adatkészletet frissíteni kellene. Ha importálja az adatokat, a módosítások megtekintéséhez frissítenie kell az adatkészletet. További információ a DirectQuery használatának módjáról és idejéről: DirectQuery használata a Power BI-ban.

  6. Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Csatlakozás. Az alapértelmezett fióknév az admin.

  7. Jelölje ki a tábláthvac, várja meg az adatok előnézetének megtekintését, majd válassza a Betöltés lehetőséget.

    Spark cluster user name and password.

    A Power BI Desktop rendelkezik a Spark-fürthöz való csatlakozáshoz és adatok a hvac-táblából való letöltéséhez szükséges információkkal. A tábla és annak oszlopai a Mezők panelen jelennek meg.

  8. A célhőmérséklet és a tényleges hőmérséklet közötti eltérés vizualizációja az egyes épületek esetén:

    1. A VIZUALIZÁCIÓK panelen válassza a Területdiagram lehetőséget.

    2. Húzza a BuildingID mezőt a Tengely területre, az ActualTemp és a TargetTemp mezőket pedig az Érték területre.

      add value columns.

      A diagram a következőképpen fog kinézni:

      area graph sum.

      Alapértelmezés szerint a vizualizáció az ActualTemp és a TargetTemp mezők összegét jeleníti meg. A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilat, és láthatja, hogy az Összeg ki van jelölve.

    3. A Vizualizációk panelen válassza az ActualTemp és a TragetTemp melletti lefelé mutató nyilakat, majd az Átlag lehetőséget az egyes épületek tényleges és célhőmérsékletének átlagának lekéréséhez.

      average of values.

      Az adatok vizualizációjának a képernyőképen láthatóhoz hasonlóan kell kinéznie. Ha az egérmutatót a vizualizáció fölé viszi, megtekintheti a kapcsolódó adatokhoz tartozó eszköztippeket.

      area graph .png " alt-text="area graph." border="true":::

  9. Lépjen a Fájl>mentése elemre, írja be a fájl nevétBuildingTemperature, majd válassza a Mentés lehetőséget.

A jelentés közzététele a Power BI szolgáltatásban (opcionális)

A Power BI szolgáltatás segítségével jelentéseket és irányítópultokat oszthat meg a vállalaton belül. Ebben a szakaszban először az adatkészlet és a jelentés közzétételét végezzük el. Ezután rögzíteni fogjuk a jelentést egy irányítópulton. Az irányítópultok általában a jelentésekben lévő adatok egy részhalmazára összpontosítanak. A jelentésben csak egy vizualizáció szerepel, de még mindig hasznos végighaladni a lépéseken.

  1. Nyissa meg a Power BI Desktopot.

  2. A Kezdőlap lapon válassza a Közzététel lehetőséget.

    Publish from Power BI Desktop. Desktop" border="true":::

  3. Válasszon ki egy munkaterületet, amelyben közzé szeretné tenni az adathalmazt és a jelentést, majd válassza a Kiválasztás lehetőséget. A következő képen az alapértelmezett Saját munkaterület mező van kiválasztva.

    Select workspace to publish dataset and report to.

  4. A közzététel sikeres végrehajtása után válassza a "BuildingTemperature.pbix" megnyitása lehetőséget a Power BI-ban.

    Publish success, click to enter credentials.

  5. A Power BI szolgáltatás válassza az Enter Credentials (Hitelesítő adatok megadása) lehetőséget.

    Enter credentials in Power BI service. " border="true":::

  6. Válassza a Hitelesítő adatok szerkesztése lehetőséget.

    Edit credentials in Power BI service.

  7. Adja meg a HDInsight bejelentkezési fiók adatait, majd válassza a Bejelentkezés lehetőséget. Az alapértelmezett fióknév az admin.

    Sign in to Spark cluster. Spark-fürt" border="true":::

  8. A bal oldali panelen nyissa meg a Munkaterületek saját munkaterület>jelentéseit>, majd válassza a BuildingTemperature lehetőséget.

    Report listed under reports in left pane.

    A BuildingTemperature elemnek a bal oldali ablaktábla ADATKÉSZLETEK területén is meg kell jelennie.

    A Power BI Desktopban létrehozott vizualizáció mostantól a Power BI szolgáltatásban is elérhető.

  9. Vigye a kurzort a vizualizáció fölé, majd válassza a jobb felső sarokban lévő kitűző ikont.

    Report in the Power BI service.

  10. Válassza az "Új irányítópult" lehetőséget, írja be a nevet Building temperature, majd válassza a Rögzítés lehetőséget.

    Pin to new dashboard. új irányítópultra" border="true":::

  11. A jelentésben válassza az Ugrás az irányítópultra lehetőséget.

Ezzel rögzítette a vizualizációt az irányítópulton – felvehet további vizualizációkat is a jelentésbe, amelyeket ugyanezen az irányítópulton rögzíthet. A jelentésekről és irányítópultokról további információt a Power BI-jelentések és a Power BI irányítópultjai című témakörben talál.

Az erőforrások eltávolítása

Az oktatóanyag befejezése után érdemes törölni a fürtöt. A HDInsight használatával az adatok az Azure Storage-ban lesznek tárolva, így biztonságosan törölheti a fürtöt, ha nincs használatban. A HDInsight-fürtökért is díjat számítunk fel, még akkor is, ha nincs használatban. Mivel a fürt díjai sokszor nagyobbak, mint a tárolási díjak, érdemes törölni a fürtöket, ha nincsenek használatban.

A fürtök törléséről a HDInsight-fürt törlése a böngésző, a PowerShell vagy az Azure CLI használatával című témakörben olvashat.

Következő lépések

Ebben az oktatóanyagban megtanulta, hogyan jeleníthet meg adatokat egy Apache Spark-fürtben az Azure HDInsightban a Microsoft Power BI használatával. A következő cikkből megtudhatja, hogy létrehozhat egy gépi tanulási alkalmazást.