Megosztás a következőn keresztül:


Data Wrangler használata Spark DataFrame-eken (előzetes verzió)

A Data Wrangler, a feltáró adatelemzés notebook-alapú eszköze mostantól támogatja a Spark DataFrame-eket és a pandas DataFrame-eket is, és PySpark-kódot hoz létre a Python-kód mellett. A Data Wrangler általános áttekintését, amely a pandas DataFrame-ek feltárását és átalakítását ismerteti, tekintse meg a fő oktatóanyagot. Az alábbi oktatóanyag bemutatja, hogyan használható a Data Wrangler a Spark DataFrame-ek felderítésére és átalakítására.

Fontos

Ez a funkció előzetes verzióban érhető el.

Előfeltételek

  • Microsoft Fabric-előfizetés lekérése. Vagy regisztráljon egy ingyenes Microsoft Fabric-próbaverzióra.

  • Jelentkezzen be a Microsoft Fabricbe.

  • A kezdőlap bal oldalán található élménykapcsolóval válthat a Synapse Adattudomány felületre.

    Screenshot of the experience switcher menu, showing where to select Data Science.

A Data Wrangler indítása Spark DataFrame-lel

A felhasználók közvetlenül egy Microsoft Fabric-jegyzetfüzetből nyithatják meg a Spark DataFrame-eket a Data Wranglerben, ha ugyanarra a legördülő listára lépnek, ahol a Pandas DataFrames megjelenik. Az aktív Spark DataFrame-ek listája az aktív pandas-változók listájának legördülő listájában jelenik meg.

A következő kódrészlet létrehoz egy Spark DataFrame-et a pandas Data Wrangler oktatóanyagban használt mintaadatokkal:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

A jegyzetfüzet menüszalagjának "Adatok" lapja alatt a Data Wrangler legördülő menüben tallózhat a szerkesztésre elérhető aktív Adatkeretek között. Válassza ki azt, amelyiket meg szeretné nyitni a Data Wranglerben.

Tipp.

A Data Wrangler nem nyitható meg, amíg a jegyzetfüzet kernele foglalt. A végrehajtó cellának a Data Wrangler elindítása előtt be kell fejeznie a végrehajtást.

Screenshot showing a Fabric notebook with the Data Wrangler dropdown prompt.

Egyéni minták kiválasztása

A Data Wrangler teljesítménybeli okokból automatikusan pandas-mintákká alakítja a Spark DataFrame-eket. Az eszköz által létrehozott összes kód azonban végső soron a PySparkra lesz lefordítva, amikor vissza exportálja a jegyzetfüzetbe. A pandas DataFrame-hez hasonlóan testre is szabhatja az alapértelmezett mintát a Data Wrangler legördülő menü "Egyéni minta kiválasztása" elemének kiválasztásával. Ezzel elindít egy előugró menüt a kívánt minta méretének (sorok számának) és a mintavételezési módszernek (első rekordok, utolsó rekordok vagy véletlenszerű készlet) megadására szolgáló beállításokkal.

Screenshot showing the Data Wrangler dropdown prompt with the custom sample option outlined.

Screenshot showing the Data Wrangler custom sample prompt.

Összefoglaló statisztikák megtekintése

Amikor a Data Wrangler betöltődik, az előnézeti rács fölött egy információs szalagcím emlékezteti arra, hogy a Spark DataFrame-ek ideiglenesen pandas-mintákká lesznek konvertálva, de az összes létrehozott kód végül PySparkmá lesz konvertálva. A Data Wrangler használata Spark DataFrame-eken egyébként nem különbözik a pandas DataFrame-eken való használattól. Az Összefoglalás panel leíró áttekintése a minta dimenzióira, hiányzó értékeire és egyebekre vonatkozó információkat jelenít meg. Ha az Adat wrangler rács bármelyik oszlopát kijelöli, az Összegző panelt kéri az adott oszlop leíró statisztikáinak frissítésére és megjelenítésére. A fejlécben minden oszlopra vonatkozó gyors elemzések is elérhetők.

Tipp.

Az oszlopspecifikus statisztikák és vizualizációk (mind az Összegzés panelen, mind az oszlopfejlécekben) az oszlop adattípusától függnek. Egy numerikus oszlop rögzített hisztogramja például csak akkor jelenik meg az oszlopfejlécben, ha az oszlopot numerikus típusként öntötték. A legpontosabb megjelenítéshez használja az Operations panelt az oszloptípusok átdolgozásához.

Screenshot showing the Data Wrangler display grid and Summary panel.

Adattisztítási műveletek böngészése

Az adattisztítási lépések kereshető listája az Operatív panelen található. (Ugyanezek a műveletek kisebb választéka is elérhető az egyes oszlopok helyi menüjében.) Az Operatív panelen az adattisztítási lépés kiválasztásával meg kell adnia egy céloszlopot vagy oszlopot, valamint minden szükséges paramétert a lépés végrehajtásához. Az oszlop numerikus skálázásának kéréséhez például új értéktartományra van szükség.

Screenshot showing the Data Wrangler Operations panel.

Műveletek előnézete és alkalmazása

A kiválasztott művelet eredményeinek előnézete automatikusan megjelenik a Data Wrangler megjelenítési rácsában, és a megfelelő kód automatikusan megjelenik a rács alatti panelen. Az előnézeti kód véglegesítéséhez válassza az "Alkalmaz" lehetőséget mindkét helyen. Ha meg szeretne szabadulni az előzetes verziójú kódtól, és megpróbálni egy új műveletet, válassza az "Elvetés" lehetőséget.

Screenshot showing a Data Wrangler operation in progress.

A művelet alkalmazása után a Data Wrangler megjeleníti a rácsot és az összefoglaló statisztikákat, hogy tükrözze az eredményeket. A kód megjelenik a véglegesített műveletek futó listájában, amely a Tisztítási lépések panelen található.

Screenshot showing an applied Data Wrangler operation.

Tipp.

A legutóbb alkalmazott lépést bármikor visszavonhatja a mellette lévő kuka ikonnal, amely akkor jelenik meg, ha a kurzort a tisztítási lépések panelen az adott lépésre viszi.

Screenshot showing a Data Wrangler operation that can be undone.

Az alábbi táblázat összefoglalja azokat a műveleteket, amelyeket a Data Wrangler jelenleg támogat a Spark DataFrame-ekhez:

Művelet Leírás
Rendezés Oszlop rendezése növekvő vagy csökkenő sorrendben
Szűrő Sorok szűrése egy vagy több feltétel alapján
Gyakori elérésű kód Hozzon létre új oszlopokat egy meglévő oszlop minden egyedi értékéhez, jelezve, hogy az értékek előfordulása vagy hiánya soronként
Egyforrós kód elválasztójellel Kategorikus adatok felosztása és gyorskódolása elválasztó használatával
Oszloptípus módosítása Oszlop adattípusának módosítása
Oszlop elvetése Egy vagy több oszlop törlése
Oszlop kijelölése Válasszon egy vagy több megtartandó oszlopot, és törölje a többit
Oszlop átnevezése Oszlop átnevezése
Hiányzó értékek elvetése Hiányzó értékeket tartalmazó sorok eltávolítása
Ismétlődő sorok elvetése Az összes olyan sor elvetése, amely egy vagy több oszlopban duplikált értékekkel rendelkezik
Hiányzó értékek kitöltése Cellák lecserélése hiányzó értékekre új értékre
Keresés és csere Cellák cseréje pontos egyező mintára
Csoportosítás oszlop és összesítés szerint Csoportosítás oszlopértékek és összesített eredmények szerint
Sávok térköze Szóköz eltávolítása a szöveg elejéről és végéről
Szöveg felosztása Oszlop felosztása több oszlopra felhasználó által definiált elválasztó alapján
Szöveg átalakítása kisbetűssé Szöveg átalakítása kisbetűssé
Szöveg átalakítása nagybetűssé Szöveg konvertálása NAGYBETŰSRE Standard kiadás
Minimális/maximális értékek méretezése Numerikus oszlop skálázása minimális és maximális érték között
Villámkitöltés Új oszlop automatikus létrehozása meglévő oszlopból származó példák alapján

Kód mentése és exportálása

A Data Wrangler megjelenítési rács feletti eszköztár a létrehozott kód mentési lehetőségeit tartalmazza. A kódot átmásolhatja a vágólapra, vagy exportálhatja a jegyzetfüzetbe függvényként. A Spark DataFrames esetében a pandas-mintán létrehozott összes kód le lesz fordítva a PySparkra, mielőtt az visszahelyezi a jegyzetfüzetbe. Mielőtt a Data Wrangler bezárul, az eszköz megjeleníti a lefordított PySpark-kód előnézetét, és lehetőséget biztosít a köztes pandas-kód exportálására is.

Tipp.

A Data Wrangler által létrehozott kód csak akkor lesz alkalmazva, ha manuálisan futtatja az új cellát, és nem írja felül az eredeti DataFrame-et.

Screenshot showing the options to export code in Data Wrangler.

Screenshot showing the PySpark preview in the export code prompt in Data Wrangler.

Screenshot showing the code generated by Data Wrangler back in the notebook.