Mata in data i ett Databricks lakehouse

Artikel
03/01/2024

Azure Databricks erbjuder en mängd olika sätt att hjälpa dig att mata in data i ett sjöhus som backas upp av Delta Lake. Databricks rekommenderar att du använder Automatisk inläsning för inkrementell datainmatning från molnobjektlagring. Lägg till datagränssnittet innehåller ett antal alternativ för att snabbt ladda upp lokala filer eller ansluta till externa datakällor.

Kör din första ETL-arbetsbelastning

Om du inte har använt Auto Loader på Azure Databricks börjar du med en självstudie. Se Kör din första ETL-arbetsbelastning på Azure Databricks.

Auto Loader

Automatisk inläsning bearbetar inkrementellt och effektivt nya datafiler när de tas emot i molnlagring utan ytterligare installation. Automatisk inläsning tillhandahåller en strukturerad strömningskälla med namnet cloudFiles. Med tanke på en sökväg till indatakatalogen i molnfillagringen cloudFiles bearbetar källan automatiskt nya filer när de tas emot, med möjlighet att även bearbeta befintliga filer i katalogen.

Automatisera ETL med Delta Live Tables och automatisk inläsning

Du kan förenkla distributionen av skalbar, inkrementell inmatningsinfrastruktur med Auto Loader och Delta Live Tables. Observera att Delta Live Tables inte använder den interaktiva standardkörningen som finns i notebook-filer, utan i stället betonar distribution av infrastruktur som är redo för produktion.

Ladda upp lokala datafiler eller ansluta externa datakällor

Du kan ladda upp lokala datafiler på ett säkert sätt eller mata in data från externa källor för att skapa tabeller. Se Läsa in data med hjälp av användargränssnittet för att lägga till data.

Mata in data i Azure Databricks med hjälp av verktyg från tredje part

Azure Databricks validerar teknikpartnerintegreringar som gör att du kan mata in data i Azure Databricks. Dessa integreringar möjliggör datainmatning med låg kod och skalbar datainmatning från en mängd olika källor till Azure Databricks. Se Teknikpartners. Vissa teknikpartners finns i Databricks Partner Anslut, som tillhandahåller ett användargränssnitt som förenklar anslutning av verktyg från tredje part till dina lakehouse-data.

COPY INTO

COPY INTO gör det möjligt för SQL-användare att idempotent och inkrementellt mata in data från molnobjektlagring i Delta-tabeller. Den kan användas i Databricks SQL, notebook-filer och Databricks-jobb.

När ska du använda COPY INTO och when to use Auto Loader

Här följer några saker att tänka på när du väljer mellan Auto Loader och COPY INTO:

Om du ska mata in filer i storleksordningen tusentals kan du använda COPY INTO. Om du förväntar dig filer i storleksordningen miljontals eller fler över tid använder du Auto Loader. Automatisk inläsning kräver färre totala åtgärder för att identifiera filer jämfört med COPY INTO och kan dela upp bearbetningen i flera batchar, vilket innebär att automatisk inläsning är billigare och effektivare i stor skala.
Om dataschemat kommer att utvecklas ofta ger Auto Loader bättre primitiver kring schemainferens och utveckling. Mer information finns i Konfigurera schemainferens och utveckling i Auto Loader .
Det kan vara lite enklare att läsa in en delmängd av uppladdade filer med COPY INTO. Med Auto Loader är det svårare att bearbeta en utvald delmängd av filer. Du kan dock använda COPY INTO för att läsa in delmängden av filer igen medan en automatisk inläsningsström körs samtidigt.
För en ännu mer skalbar och robust filinmatningsupplevelse gör Auto Loader det möjligt för SQL-användare att utnyttja strömningstabeller. Se Läsa in data med hjälp av strömmande tabeller i Databricks SQL.

För en kort översikt och demonstration av Auto Loader, samt COPY INTO, titta på följande YouTube-video (2 minuter).

Granska filmetadata som samlas in under datainmatning

Apache Spark samlar automatiskt in data om källfiler under datainläsningen. Med Azure Databricks kan du komma åt dessa data med kolumnen Filmetadata.

Ladda upp kalkylbladsexporter till Azure Databricks

Använd tabellen Skapa eller ändra från filuppladdningssidan för att ladda upp CSV-, TSV- eller JSON-filer. Se Skapa eller ändra en tabell med filuppladdning.

Migrera dataprogram till Azure Databricks

Migrera befintliga dataprogram till Azure Databricks så att du kan arbeta med data från många källsystem på en enda plattform. Se Migrera dataprogram till Azure Databricks.