Co je lakehouse v Microsoft Fabricu?

Microsoft Fabric Lakehouse je platforma architektury dat pro ukládání, správu a analýzu strukturovaných a nestrukturovaných dat v jednom umístění. Jedná se o flexibilní a škálovatelné řešení, které organizacím umožňuje zpracovávat velké objemy dat pomocí různých nástrojů a architektur pro zpracování a analýzu těchto dat. Integruje se s dalšími nástroji pro správu a analýzu dat a poskytuje komplexní řešení pro přípravu a analýzu dat.

Gif of overall lakehouse experience.

Koncový bod analýzy SQL Lakehouse

Lakehouse vytvoří obslužnou vrstvu tak, že během vytváření automaticky vygeneruje koncový bod analýzy SQL a výchozí sémantický model. Tato nová funkce zobrazení umožňuje uživateli pracovat přímo nad tabulkami Delta v jezeře, aby poskytoval bezproblémové a výkonné prostředí od příjmu dat až po generování sestav.

Je důležité si uvědomit, že koncový bod analýzy SQL je prostředí jen pro čtení a nepodporuje úplnou oblast T-SQL transakčního datového skladu.

Poznámka:

V koncovém bodu analýzy SQL jsou k dispozici pouze tabulky ve formátu Delta. Parquet, CSV a další formáty nelze dotazovat pomocí koncového bodu analýzy SQL. Pokud tabulku nevidíte, budete ji muset převést na formát Delta.

Automatické zjišťování a registrace tabulek

Automatické zjišťování a registrace tabulek je funkce Lakehouse, která poskytuje plně spravovaný soubor pro tabulkové prostředí datových inženýrů a datových vědců. Soubor můžete umístit do spravované oblasti Lakehouse a systém ho automaticky ověří pro podporované strukturované formáty a zaregistruje ho do metastoru s potřebnými metadaty, jako jsou názvy sloupců, formáty, komprese a další. (Aktuálně je jediným podporovaným formátem tabulka Delta.) Pak můžete na soubor odkazovat jako na tabulku a použít syntaxi SparkSQL k interakci s daty.

Interakce s položkou Lakehouse

Datový inženýr může interagovat s jezerem a daty v jezeře několika způsoby:

  • Průzkumník Lakehouse: Průzkumník je hlavní stránkou interakce Lakehouse. Data můžete načíst do lakehouse, prozkoumat data v Lakehouse pomocí Průzkumníka objektů, nastavit popisky MIP a různé další věci. Přečtěte si další informace o prostředí průzkumníka: Navigace v Průzkumníku Fabric Lakehouse.

  • Poznámkové bloky: Datoví inženýři můžou pomocí poznámkového bloku napsat kód pro čtení, transformaci a zápis přímo do Lakehouse jako tabulek nebo složek. Další informace o tom, jak používat poznámkové bloky pro Lakehouse: Prozkoumání dat v jezeře pomocí poznámkového bloku a použití poznámkového bloku k načtení dat do jezera.

  • Kanály: Datoví inženýři můžou pomocí nástrojů pro integraci dat, jako je nástroj pro kopírování kanálu, načíst data z jiných zdrojů a dostat se do Lakehouse. Přečtěte si další informace o tom, jak používat aktivitu kopírování: Jak kopírovat data pomocí aktivity kopírování.

  • Definice úloh Apache Sparku: Datoví inženýři můžou vyvíjet robustní aplikace a orchestrovat spouštění zkompilovaných úloh Sparku v Javě, Scala a Pythonu. Další informace o úlohách Sparku: Co je definice úlohy Apache Sparku?

  • Toky dat Gen 2: Datoví inženýři můžou používat toky dat Gen 2 k ingestování a přípravě dat. Další informace o načítání dat pomocí toků dat: Vytvoření prvního toku dat pro získání a transformaci dat

Přečtěte si další informace o různých způsobech načtení dat do jezera: Možnosti pro načtení dat do Fabric Lakehouse.

Multitasking s lakehousem

Multitasking nabízí návrh karty prohlížeče, který umožňuje bez problémů otevírat a přepínat mezi několika položkami, což vám umožní efektivněji spravovat datové jezero než kdy dřív. Už žádné žádní mezi různými okny nebo ztrátou stopy vašich úkolů. Lakehouse nabízí vylepšené možnosti multitaskingu, díky kterým bude vaše cesta ke správě dat co nejefektivnější a uživatelsky přívětivá s následujícími možnostmi:

  • Zachování spuštěných operací: Můžete nahrát nebo spustit operaci načítání dat na jedné kartě a zkontrolovat jinou úlohu na jiné kartě. Díky vylepšenému více úlohám se spuštěné operace při procházení mezi kartami nezruší. Můžete se soustředit na práci bez přerušení.

  • Zachovat kontext: Vybrané objekty, tabulky dat nebo soubory zůstanou při přepínání mezi kartami otevřené a snadno dostupné. Kontext datového jezera je vždy na dosah ruky.

  • Opětovné načtení neblokujícího seznamu: Mechanismus opětovného odblokování souborů a tabulek Během aktualizace seznamu na pozadí můžete dál pracovat. Zajišťuje, že máte nejnovější data a současně poskytujete bezproblémové a nepřerušované prostředí.

  • Jasně definovaná oznámení: Oznámení informační zprávy určují, ze kterého jezera pochází, a usnadňují sledování změn a aktualizací ve vašem prostředí s více úlohami.

Přístupný návrh jezerahouse

Přístupnost je vždy nejvyšší prioritou, aby se zajistilo, že Lakehouse je inkluzivní a uživatelsky přívětivý pro všechny uživatele. Tady jsou klíčové iniciativy, které jsme zatím implementovali pro podporu přístupnosti:

  • Kompatibilita čtečky obrazovky: Můžete bez problémů pracovat s oblíbenými čtečkami obrazovky, což umožňuje uživatelům se zrakově postiženým uživatelům efektivně pohybovat a pracovat s naší platformou.

  • Přeformátování textu responzivním designem, který se přizpůsobí různým velikostem a orientací obrazovky. Přeformátování textu a obsahu dynamicky usnadňuje uživatelům zobrazení a interakci s naší aplikací na různých zařízeních.

  • Navigace pomocí klávesnice: Vylepšená navigace pomocí klávesnice umožňující uživatelům pohybovat se po jezeře, aniž by se museli spoléhat na myš, což zlepšuje možnosti pro uživatele s motorovým postižením.

  • Alternativní text obrázků: Všechny obrázky teď obsahují popisný alternativní text, aby čtečky obrazovky mohli sdělit smysluplné informace.

  • Pole formulářů a popisky: Všechna pole formuláře mají přidružené popisky, což zjednodušuje zadávání dat pro všechny uživatele, včetně těch, kteří používají čtečky obrazovky.

V tomto přehledu získáte základní znalosti o jezeře. V dalším článku se dozvíte, jak vytvořit a používat vlastní lakehouse: