Co je automatický zavaděč?

Článek
03/01/2024

Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště bez jakéhokoli dalšího nastavení.

Jak automatický zavaděč funguje?

Automatické zavaděče postupně a efektivně zpracovává nové datové soubory při jejich doručení do cloudového úložiště. Auto Loader může načítat datové soubory z AWS S3 (s3://), Azure Data Lake Storage Gen2 (ADLS Gen2, abfss://), Google Cloud Storage (GCS, gs://), Azure Blob Storage (wasbs://), ADLS Gen1 (adl://) a systému souborů Databricks (DBFS, dbfs:/). Automatický zavaděč může ingestovat JSON, CSV, XML, PARQUET, AVRO, ORC, , TEXTa BINARYFILE formáty souborů.

Poznámka:

Starší verze ovladače objektů blob služby Windows Azure Storage (WASB) je zastaralá. ABFS má oproti WASB řadu výhod. Viz dokumentace k Azure v ABFS. Dokumentaci pro práci se starším ovladačem WASB najdete v tématu Připojení do služby Azure Blob Storage s WASB (starší verze).
Platforma Azure oznámila nevyřízené vyřazení Azure Data Lake Storage Gen1. Databricks doporučuje migrovat všechna data z Azure Data Lake Storage Gen1 do Azure Data Lake Storage Gen2. Pokud jste ještě nemigrovali, přečtěte si téma Přístup k Azure Data Lake Storage Gen1 z Azure Databricks.

Auto Loader poskytuje zdroj strukturovaného streamování s názvem cloudFiles. Vzhledem k cestě ke vstupnímu adresáři v cloudovém úložišti cloudFiles souborů zdroj automaticky zpracovává nové soubory při jejich doručení s možností také zpracovávat existující soubory v tomto adresáři. Automatický zavaděč podporuje Python i SQL v dynamických tabulkách Delta.

Pomocí automatického zavaděče můžete zpracovat miliardy souborů k migraci nebo obnovení tabulky. Automatické zavaděče se škáluje tak, aby podporovalo příjem milionů souborů téměř v reálném čase za hodinu.

Jak automatické zavaděče sleduje průběh příjmu dat?

Při zjištění souborů se metadata uchovávají ve škálovatelném úložišti klíč-hodnota (RocksDB) v umístění kontrolního bodu vašeho kanálu automatického zavaděče. Toto úložiště klíč-hodnota zajišťuje, aby se data zpracovávala přesně jednou.

V případě selhání může automatický zavaděč pokračovat z místa, kde skončila informacemi uloženými v umístění kontrolního bodu, a při zápisu dat do Delta Lake dál poskytovat přesně jednou záruky. Abyste dosáhli odolnosti proti chybám nebo přesně jednou sémantiky, nemusíte udržovat ani spravovat žádný stav sami.

Přírůstkový příjem dat pomocí automatického zavaděče s dynamickými tabulkami Delta

Databricks doporučuje automatické zavaděče v rozdílových živých tabulkách pro přírůstkový příjem dat. Delta Live Tables rozšiřuje funkce strukturovaného streamování Apache Sparku a umožňuje napsat jen několik řádků deklarativního Pythonu nebo SQL pro nasazení datového kanálu pro produkční kvalitu pomocí:

Automatické škálování výpočetní infrastruktury pro úsporu nákladů
Kontroly kvality dat s očekáváním
Automatické zpracování vývoje schématu
Monitorování prostřednictvím metrik v protokolu událostí

Nemusíte zadávat schéma ani umístění kontrolního bodu, protože rozdílové živé tabulky automaticky spravují tato nastavení pro vaše kanály. Viz Načtení dat s rozdílovými živými tabulkami.

Databricks také doporučuje automatický zavaděč při každém použití strukturovaného streamování Apache Spark k ingestování dat z cloudového úložiště objektů. Rozhraní API jsou k dispozici v Pythonu a Scala.

Začínáme s automatickým zavaděčem Databricks

V následujících článcích se dozvíte, jak začít s konfigurací přírůstkového příjmu dat pomocí automatického zavaděče s rozdílovými živými tabulkami:

Příklady: Běžné vzory automatického zavaděče

Příklady běžných vzorů automatického zavaděče najdete v tématu Běžné vzory načítání dat.

Konfigurace možností automatického zavaděče

Automatický zavaděč můžete ladit na základě objemu dat, řady a rychlosti.

Úplný seznam možností automatického zavaděče najdete tady:

Možnosti automatického zavaděče

Pokud narazíte na neočekávaný výkon, podívejte se na nejčastější dotazy.

Konfigurace režimů detekce souborů automatického zavaděče

Automatický zavaděč podporuje dva režimy detekce souborů. Přečtěte si:

Výhody automatického zavaděče při použití strukturovaného streamování přímo u souborů

V Apache Sparku můžete soubory číst přírůstkově pomocí spark.readStream.format(fileFormat).load(directory). Automatický zavaděč poskytuje pro zdroj souborů následující výhody:

Škálovatelnost: Automatický zavaděč dokáže efektivně zjišťovat miliardy souborů. Obnovení je možné provádět asynchronně, aby nedocházelo k plýtvání výpočetními prostředky.
Výkon: Náklady na zjišťování souborů s automatickým zavaděčem se škálují s počtem souborů, které se ingestují, místo počtu adresářů, ve které mohou soubory přistát. Podívejte se, co je režim výpisu adresáře automatického zavaděče?
Podpora odvozování a vývoje schématu: Auto Loader dokáže rozpoznat odchylky schématu, upozornit vás, kdy dojde ke změnám schématu, a záchranná data, která by jinak byla ignorována nebo ztracena. Podívejte se, jak funguje odvození schématu automatického zavaděče?.
Náklady: Auto Loader používá nativní cloudová rozhraní API k získání seznamů souborů, které existují v úložišti. Kromě toho může režim oznámení souborů automatického zavaděče pomoct snížit náklady na cloud ještě více tím, že se úplně vyhne výpisu adresáře. Automatické zavaděče může automaticky nastavit služby oznámení souborů v úložišti, aby bylo zjišťování souborů mnohem levnější.