Använda Data Wrangler på Spark DataFrames (förhandsversion)

Artikel
11/15/2023

Data Wrangler, ett notebook-baserat verktyg för undersökande dataanalys, stöder nu både Spark DataFrames och Pandas DataFrames, vilket genererar PySpark-kod utöver Python-kod. En allmän översikt över Data Wrangler, som beskriver hur du utforskar och transformerar Pandas DataFrames, finns i huvudguiden. Följande självstudie visar hur du använder Data Wrangler för att utforska och transformera Spark DataFrames.

Viktigt!

Den här funktionen är i förhandsversion.

Förutsättningar

Skaffa en Microsoft Fabric-prenumeration. Eller registrera dig för en kostnadsfri utvärderingsversion av Microsoft Fabric.
Logga in på Microsoft Fabric.
Använd upplevelseväxlaren till vänster på startsidan för att växla till Synapse Datavetenskap upplevelse.

Starta Data Wrangler med en Spark DataFrame

Användare kan öppna Spark DataFrames i Data Wrangler direkt från en Microsoft Fabric-notebook-fil genom att gå till samma listruta där Pandas DataFrames visas. En lista över aktiva Spark DataFrames visas i listrutan under listan över aktiva Pandas-variabler.

Nästa kodfragment skapar en Spark DataFrame med samma exempeldata som används i pandas Data Wrangler-självstudien:

import pandas as pd

# Read a CSV into a Spark DataFrame
df = spark.createDataFrame(pd.read_csv("https://raw.githubusercontent.com/plotly/datasets/master/titanic.csv"))
display(df)

Under menyfliken Data i notebook-menyfliken använder du listrutan Data Wrangler för att bläddra bland aktiva dataramar som är tillgängliga för redigering. Välj den som du vill öppna i Data Wrangler.

Dricks

Det går inte att öppna Data Wrangler när notebook-kerneln är upptagen. En cell som körs måste slutföra körningen innan Data Wrangler kan startas.

Välja anpassade exempel

Data Wrangler konverterar automatiskt Spark DataFrames till Pandas-exempel av prestandaskäl. Men all kod som genereras av verktyget översätts slutligen till PySpark när den exporteras tillbaka till notebook-filen. Precis som med alla Pandas DataFrame kan du anpassa standardexemplet genom att välja "Välj anpassat exempel" i listrutan Data Wrangler. När du gör det startas ett popup-fönster med alternativ för att ange storleken på det önskade exemplet (antal rader) och samplingsmetoden (första poster, sista poster eller en slumpmässig uppsättning).

Visa sammanfattningsstatistik

När Data Wrangler läses in påminner en informationsbanderoll ovanför förhandsgranskningsrutnätet om att Spark DataFrames tillfälligt konverteras till Pandas-exempel, men all genererad kod konverteras slutligen till PySpark. Att använda Data Wrangler på Spark DataFrames skiljer sig annars inte från att använda det på Pandas DataFrames. En beskrivande översikt på panelen Sammanfattning visar information om exemplets dimensioner, saknade värden med mera. Om du väljer valfri kolumn i rutnätet Data Wrangler uppmanas panelen Sammanfattning att uppdatera och visa beskrivande statistik om den specifika kolumnen. Snabbinsikter om varje kolumn är också tillgängliga i rubriken.

Dricks

Kolumnspecifik statistik och visuella objekt (både i panelen Sammanfattning och i kolumnrubrikerna) beror på kolumndatatypen. Till exempel visas ett histogram med intervall för en numerisk kolumn endast i kolumnrubriken om kolumnen är gjuten som en numerisk typ. Använd panelen Åtgärder för att omarbeta kolumntyper för den mest exakta visningen.

Bläddra bland datarensningsåtgärder

En sökbar lista över datarensningssteg finns i åtgärdspanelen. (Ett mindre urval av samma åtgärder är också tillgängligt i snabbmenyn för varje kolumn.) När du väljer ett datarensningssteg på panelen Åtgärder uppmanas du att ange en målkolumn eller kolumner, tillsammans med eventuella nödvändiga parametrar för att slutföra steget. Till exempel kräver uppmaningen för att skala en kolumn numeriskt ett nytt värdeintervall.

Förhandsgranska och tillämpa åtgärder

Resultatet av en vald åtgärd förhandsgranskas automatiskt i rutnätet för Data Wrangler-visning och motsvarande kod visas automatiskt i panelen under rutnätet. Om du vill checka in den förhandsgranskade koden väljer du "Tillämpa" på någon av platserna. Om du vill bli av med den förhandsgranskade koden och prova en ny åtgärd väljer du "Ignorera".

När en åtgärd har tillämpats uppdateras Data Wrangler-visningsrutnätet och sammanfattningsstatistiken för att återspegla resultatet. Koden visas i listan över incheckade åtgärder som finns i panelen Rengöringssteg.

Dricks

Du kan alltid ångra det senast tillämpade steget med papperskorgsikonen bredvid det, som visas om du hovrar markören över det steget i panelen Rengöringssteg.

I följande tabell sammanfattas de åtgärder som Data Wrangler för närvarande stöder för Spark DataFrames:

Åtgärd	Beskrivning
Sortera	Sortera en kolumn i stigande eller fallande ordning
Filter	Filtrera rader baserat på ett eller flera villkor
Koda med en frekvent kodning	Skapa nya kolumner för varje unikt värde i en befintlig kolumn, vilket anger förekomsten eller frånvaron av dessa värden per rad
En frekvent kodning med avgränsare	Dela upp och koda kategoriska data med en avgränsare
Ändra kolumntyp	Ändra datatypen för en kolumn
Ta bort kolumn	Ta bort en eller flera kolumner
Välj kolumn	Välj en eller flera kolumner att behålla och ta bort resten
Byt namn på kolumn	Byt namn på en kolumn
Ta bort saknade värden	Ta bort rader med saknade värden
Ta bort dubblettrader	Släpp alla rader som har duplicerade värden i en eller flera kolumner
Fyll saknade värden	Ersätt celler med saknade värden med ett nytt värde
Hitta och ersätt	Ersätt celler med ett exakt matchande mönster
Gruppera efter kolumn och aggregering	Gruppera efter kolumnvärden och aggregera resultat
Ta bort tomt utrymme	Ta bort blanksteg från början och slutet av texten
Dela upp text	Dela upp en kolumn i flera kolumner baserat på en användardefinierad avgränsare
Konvertera text till gemener	Konvertera text till gemener
Konvertera text till versaler	Konvertera text till VERSALER
Skala min/max-värden	Skala en numerisk kolumn mellan ett lägsta och högsta värde
Flash-fyllning	Skapa automatiskt en ny kolumn baserat på exempel som härletts från en befintlig kolumn

Spara och exportera kod

Verktygsfältet ovanför visningsrutnätet för Data Wrangler innehåller alternativ för att spara den genererade koden. Du kan kopiera koden till Urklipp eller exportera den till notebook-filen som en funktion. För Spark DataFrames översätts all kod som genereras i Pandas-exemplet till PySpark innan den hamnar i notebook-filen igen. Innan Data Wrangler stängs visar verktyget en förhandsversion av den översatta PySpark-koden och ger ett alternativ för att exportera den mellanliggande Pandas-koden också.

Dricks

Koden som genereras av Data Wrangler tillämpas inte förrän du kör den nya cellen manuellt och den skriver inte över din ursprungliga DataFrame.

En översikt över Data Wrangler finns i den här kompletterande artikeln.
Information om hur du provar Data Wrangler i VS Code finns i Data Wrangler i VS Code.

Dela via

Använda Data Wrangler på Spark DataFrames (förhandsversion)

Förutsättningar

Starta Data Wrangler med en Spark DataFrame

Välja anpassade exempel

Visa sammanfattningsstatistik

Bläddra bland datarensningsåtgärder

Förhandsgranska och tillämpa åtgärder

Spara och exportera kod

Feedback

Feedback

Ytterligare resurser

Dela via

Använda Data Wrangler på Spark DataFrames (förhandsversion)

Förutsättningar

Starta Data Wrangler med en Spark DataFrame

Välja anpassade exempel

Visa sammanfattningsstatistik

Bläddra bland datarensningsåtgärder

Förhandsgranska och tillämpa åtgärder

Spara och exportera kod

Relaterat innehåll

Feedback

Feedback

Ytterligare resurser