Adatok betöltése databricks lakehouse-ba

Cikk
03/01/2024

Az Azure Databricks számos módszert kínál az adatok Delta Lake által támogatott tóházba való betöltéséhez. A Databricks az Automatikus betöltő használatát javasolja a felhőalapú objektumtárolóból történő növekményes adatbetöltéshez. Az Adat hozzáadása felhasználói felület számos lehetőséget kínál a helyi fájlok gyors feltöltésére vagy külső adatforrásokhoz való csatlakozásra.

Az első ETL-számítási feladat futtatása

Ha még nem használta az Automatikus betöltőt az Azure Databricksben, kezdje egy oktatóanyaggal. Lásd: Az első ETL-számítási feladat futtatása az Azure Databricksben.

Automatikus betöltő

Az automatikus betöltő növekményesen és hatékonyan dolgozza fel az új adatfájlokat, amikor további beállítás nélkül érkeznek a felhőbeli tárolóba. Az Automatikus betöltő egy strukturált streamelési forrást biztosít.cloudFiles A felhőbeli fájltároló bemeneti könyvtárának elérési útja miatt a forrás automatikusan feldolgozza az cloudFiles új fájlokat, amint megérkeznek, és lehetősége van arra is, hogy az adott könyvtárban lévő meglévő fájlokat is feldolgozza.

Az ETL automatizálása Delta Live Tables és Auto Loader használatával

Egyszerűsítheti a méretezhető, növekményes betöltési infrastruktúra üzembe helyezését az Automatikus betöltő és a Delta Live Table használatával. Vegye figyelembe, hogy a Delta Live Tables nem használja a jegyzetfüzetekben található szokásos interaktív végrehajtást, hanem az éles használatra kész infrastruktúra üzembe helyezését hangsúlyozza.

Helyi adatfájlok feltöltése vagy külső adatforrások csatlakoztatása

A táblák létrehozásához biztonságosan feltölthet helyi adatfájlokat, vagy betölthet adatokat külső forrásokból. Lásd: Adatok betöltése az adat hozzáadása felhasználói felületen.

Adatok betöltése az Azure Databricksbe külső eszközökkel

Az Azure Databricks ellenőrzi a technológiai partnerintegrációkat, amelyek lehetővé teszik az adatok Azure Databricksbe való betöltését. Ezek az integrációk alacsony kódszámú, méretezhető adatbetöltést tesznek lehetővé különböző forrásokból az Azure Databricksbe. Lásd: Technológiai partnerek. Néhány technológiai partner a Databricks Partner Csatlakozás része, amely egy olyan felhasználói felületet biztosít, amely leegyszerűsíti a külső eszközök csatlakoztatását a lakehouse-adatokhoz.

COPY INTO

A COPY INTO lehetővé teszi az SQL-felhasználók számára, hogy idempotens módon és növekményesen betöltse az adatokat a felhőobjektum-tárolóból a Delta-táblákba. Használható a Databricks SQL-ben, a jegyzetfüzetekben és a Databricks-feladatokban.

Mikor érdemes használni a COPY INTO és az automatikus betöltő használatát?

Íme néhány dolog, amit érdemes figyelembe venni az automatikus betöltő és a COPY INTOkövetkező közötti választáskor:

Ha több ezres nagyságrendű fájlokat szeretne betöltésre, használhatja COPY INTOa következőt: . Ha több millió vagy több idő alatt vár fájlokat, használja az Automatikus betöltőt. Az Automatikus betöltő kevesebb teljes műveletet igényel a fájlok felderítéséhez képest COPY INTO , és több kötegre is feloszthatja a feldolgozást, ami azt jelenti, hogy az Automatikus betöltő kevésbé költséges és hatékonyabbá teszi a skálázást.
Ha az adatséma gyakran fejlődni fog, az Automatikus betöltő jobb primitív elemeket biztosít a sémakövetkeztetés és az evolúció körül. További részletekért lásd: Sémakövetkeztetés és -fejlesztés konfigurálása az Automatikus betöltőben .
Az újra feltöltött fájlok egy részhalmazának betöltése egy kicsit egyszerűbben kezelhető COPY INTO. Az Automatikus betöltővel nehezebb újra feldolgozni a fájlok kijelölt részhalmazát. Használhatja azonban a fájlok részhalmazának újratöltését, COPY INTO miközben az automatikus betöltő stream egyidejűleg fut.
A még méretezhetőbb és robusztusabb fájlbetöltési élmény érdekében az Auto Loader lehetővé teszi az SQL-felhasználók számára a streamelési táblák használatát. Lásd: Adatok betöltése streamelési táblák használatával a Databricks SQL-ben.

Az Automatikus betöltő rövid áttekintéséhez és bemutatásához, valamint COPY INTOtekintse meg a következő YouTube-videót (2 perc).

Az adatbetöltés során rögzített fájl metaadatainak áttekintése

Az Apache Spark automatikusan rögzíti a forrásfájlok adatait az adatbetöltés során. Az Azure Databricks lehetővé teszi az adatok elérését a Fájl metaadat oszlopával.

Számolótáblák exportálásának feltöltése az Azure Databricksbe

CsV-, TSV- vagy JSON-fájlok feltöltéséhez használja a tábla létrehozása vagy módosítása fájlfeltöltési oldalról. Lásd: Tábla létrehozása vagy módosítása fájlfeltöltéssel.

Adatalkalmazások migrálása az Azure Databricksbe

Meglévő adatalkalmazások migrálása az Azure Databricksbe, hogy egyetlen platformon több forrásrendszerből származó adatokkal is dolgozhat. Lásd: Adatalkalmazások migrálása az Azure Databricksbe.