Gegevens opnemen in een Databricks Lakehouse

Artikel
03/01/2024

Azure Databricks biedt verschillende manieren om u te helpen bij het opnemen van gegevens in een lakehouse dat wordt ondersteund door Delta Lake. Databricks raadt aan om automatisch laden te gebruiken voor incrementele gegevensopname van cloudobjectopslag. De gebruikersinterface voor het toevoegen van gegevens biedt een aantal opties voor het snel uploaden van lokale bestanden of het maken van verbinding met externe gegevensbronnen.

Uw eerste ETL-workload uitvoeren

Als u AutoLoader niet hebt gebruikt in Azure Databricks, begint u met een zelfstudie. Zie Uw eerste ETL-workload uitvoeren in Azure Databricks.

Automatisch laden

Automatisch laden verwerkt stapsgewijs en efficiënt nieuwe gegevensbestanden wanneer ze in de cloudopslag aankomen zonder extra installatie. Auto Loader biedt een Structured Streaming-bron met de naam cloudFiles. Gezien een pad naar de invoermap in de opslag van cloudbestanden, verwerkt de cloudFiles bron automatisch nieuwe bestanden wanneer ze binnenkomen, met de optie om ook bestaande bestanden in die map te verwerken.

ETL automatiseren met Delta Live Tables en Auto Loader

U kunt de implementatie van schaalbare, incrementele opname-infrastructuur vereenvoudigen met AutoLoader en Delta Live Tables. Houd er rekening mee dat Delta Live Tables niet gebruikmaakt van de standaard interactieve uitvoering in notebooks, in plaats daarvan de implementatie van de infrastructuur die gereed is voor productie.

Lokale gegevensbestanden uploaden of externe gegevensbronnen verbinden

U kunt lokale gegevensbestanden veilig uploaden of gegevens opnemen uit externe bronnen om tabellen te maken. Zie Gegevens laden met behulp van de gebruikersinterface voor het toevoegen van gegevens.

Gegevens opnemen in Azure Databricks met behulp van hulpprogramma's van derden

Azure Databricks valideert integraties van technologiepartners waarmee u gegevens kunt opnemen in Azure Databricks. Deze integraties maken schaalbare gegevensopname van weinig code mogelijk vanuit verschillende bronnen in Azure Databricks. Zie Technologiepartners. Sommige technologiepartners zijn beschikbaar in Databricks Partner Verbinding maken, die een gebruikersinterface biedt waarmee u eenvoudiger hulpprogramma's van derden kunt verbinden met uw Lakehouse-gegevens.

COPY INTO

MET COPY INTO kunnen SQL-gebruikers idempotent en incrementeel gegevens uit cloudobjectopslag opnemen in Delta-tabellen. Het kan worden gebruikt in Databricks SQL, notebooks en Databricks-taken.

Wanneer gebruikt u COPY INTO en wanneer gebruikt u Auto Loader?

Hier volgen enkele aandachtspunten bij het kiezen tussen autolaadprogramma's en COPY INTO:

Als u bestanden gaat opnemen in de volgorde van duizenden, kunt u gebruiken COPY INTO. Als u bestanden verwacht in de volgorde van miljoenen of meer in de loop van de tijd, gebruikt u Auto Loader. Auto Loader vereist minder totale bewerkingen om bestanden te detecteren in vergelijking met COPY INTO en kan de verwerking in meerdere batches splitsen, wat betekent dat Auto Loader goedkoper en efficiënter op schaal is.
Als uw gegevensschema regelmatig gaat ontwikkelen, biedt Auto Loader betere primitieven rond schemadeductie en evolutie. Zie Schemadeductie en evolutie configureren in AutoLoader voor meer informatie.
Het laden van een subset van opnieuw geüploade bestanden kan iets eenvoudiger zijn om mee COPY INTOte beheren. Met Automatisch laden is het moeilijker om een selecte subset van bestanden opnieuw te verwerken. U kunt echter de COPY INTO subset van bestanden opnieuw laden terwijl een AutoLoader-stroom tegelijkertijd wordt uitgevoerd.
Voor een nog schaalbarere en robuustere ervaring voor bestandsopname stelt Auto Loader SQL-gebruikers in staat gebruik te maken van streamingtabellen. Zie Gegevens laden met behulp van streamingtabellen in Databricks SQL.

Bekijk de volgende YouTube-video (2 minuten) voor een kort overzicht en demonstratie van Auto Loader COPY INTO.

Bestandsmetagegevens controleren die zijn vastgelegd tijdens gegevensopname

Apache Spark legt automatisch gegevens over bronbestanden vast tijdens het laden van gegevens. Met Azure Databricks hebt u toegang tot deze gegevens met de kolom Met metagegevens van bestand.

Spreadsheetexports uploaden naar Azure Databricks

Gebruik de pagina Tabel maken of wijzigen op basis van bestandsuploadpagina om CSV-, TSV- of JSON-bestanden te uploaden. Zie Een tabel maken of wijzigen met behulp van het uploaden van bestanden.

Gegevenstoepassingen migreren naar Azure Databricks

Migreer bestaande gegevenstoepassingen naar Azure Databricks, zodat u met gegevens van veel bronsystemen op één platform kunt werken. Zie Gegevenstoepassingen migreren naar Azure Databricks.