Undersökande dataanalys på Azure Databricks: Verktyg och tekniker

I den här artikeln beskrivs verktyg och tekniker för undersökande dataanalys (EDA) på Azure Databricks.

Vad är EDA och varför är det användbart?

Undersökande dataanalys (EDA) innehåller metoder för att utforska datauppsättningar för att sammanfatta deras huvudsakliga egenskaper och identifiera eventuella problem med data. Med hjälp av statistiska metoder och visualiseringar kan du lära dig mer om en datauppsättning för att fastställa dess beredskap för analys och informera om vilka tekniker som ska användas för förberedelse av data. EDA kan också påverka vilka algoritmer du väljer att använda för att träna ML-modeller.

Vilka är EDA-verktygen i Azure Databricks?

Azure Databricks har inbyggda analys- och visualiseringsverktyg i både Databricks SQL och Databricks Runtime. En illustrerad lista över de typer av visualiseringar som är tillgängliga i Azure Databricks finns i Visualiseringstyper.

EDA i Databricks SQL

Här följer några användbara artiklar om verktyg för datavisualisering och utforskning i Databricks SQL:

EDA i Databricks Runtime

Databricks Runtime tillhandahåller en fördefinierad miljö som redan har populära bibliotek för datautforskning installerade. Du kan se listan över de inbyggda biblioteken i viktig information.

Dessutom visar följande artiklar exempel på visualiseringsverktyg i Databricks Runtime:

I en Databricks Python-notebook-fil kan du kombinera SQL och Python för att utforska data. När du kör kod i en SQL-språkcell i en Python-notebook-fil görs tabellresultaten automatiskt tillgängliga som en Python DataFrame. Mer information finns i Utforska SQL-cellresultat i Python-notebook-filer.