Čo je Dátová veda v službe Microsoft Fabric?

Služba Microsoft Fabric ponúka možnosti dátovej vedy na to, aby používateľom umožnila dokončiť komplexné pracovné postupy v oblasti dátovej vedy na účely obohatenia údajov a podnikových prehľadov. Môžete dokončiť širokú škálu aktivít v rámci celého procesu dátovej vedy, od skúmania, prípravy a čistenia údajov až po experimentovanie, modelovanie, bodovanie modelov a zobrazovanie prediktívnych prehľadov do zostáv BI.

Používatelia služby Microsoft Fabric majú prístup k domovskej stránke dátovej vedy. Odtiaľ môžu zisťovať rôzne relevantné zdroje a pristupovať k nim. Môžu napríklad vytvárať experimenty strojového učenia, modely a poznámkové bloky. Môžu tiež importovať existujúce poznámkové bloky na domovskej stránke Dátovej vedy.

Snímka obrazovky domovskej stránky dátovej vedy.

Možno viete, ako funguje typický proces dátovej vedy. Ako známy proces sleduje väčšina projektov strojového učenia.

Na vyššej úrovni proces zahŕňa nasledujúce kroky:

  • Formulácia a prostredie problému
  • Zisťovanie údajov a predbežné spracovanie
  • Experimentovanie a modelovanie
  • Obohatenie a funkčnosť
  • Získanie prehľadov

Diagram procesu dátovej vedy.

Tento článok popisuje možnosti vedy o údajoch v službe Microsoft Fabric z hľadiska procesu dátovej vedy. V každom kroku procesu dátovej vedy tento článok sumarizuje funkcie služby Microsoft Fabric, ktoré vám môžu pomôcť.

Formulácia a prostredie problému

Používatelia dátovej vedy v službe Microsoft Fabric pracujú na rovnakej platforme ako podnikoví používatelia a analytici. Zdieľanie údajov a spolupráca budú vďaka tomu bezproblémovejšie v rámci rôznych rolí. Analytici môžu jednoducho zdieľať zostavy a množiny údajov služby Power BI s odborníkmi na dátovu vedu. Jednoduchá spolupráca v rámci rolí v službe Microsoft Fabric výrazne uľahčuje ruky počas fázy problémového formulovania.

Zisťovanie údajov a predbežné spracovanie

Používatelia služby Microsoft Fabric môžu pracovať s údajmi vo OneLake pomocou položky Lakehouse. Lakehouse sa jednoducho pripája k notebooku na prehľadávanie a interakciu s údajmi.

Používatelia môžu jednoducho čítať údaje z lakehouse priamo do údajového rámca Pandas. Na skúmanie tak môžete bezproblémovo čítať údaje zo služby OneLake.

Na príjem údajov a kanály prípravy údajov s kanálmi integrácie údajov je k dispozícii výkonná množina nástrojov – natívne integrovaná časť služby Microsoft Fabric. Jednoducho vytvárané kanály údajov môžu pristupovať k údajom a transformovať ich do formátu, ktorý môže využívať strojové učenie.

Prieskum údajov

Dôležitou súčasťou procesu strojového učenia je pochopenie údajov prostredníctvom skúmania a vizualizácie.

V závislosti od umiestnenia ukladacieho priestoru údajov ponúka Microsoft Fabric množinu rôznych nástrojov na skúmanie a prípravu údajov na analýzu a strojové učenie. Poznámkové bloky sa stávajú jedným z najrýchlejších spôsobov, ako začať s skúmaním údajov.

Apache Spark a Python na prípravu údajov

Microsoft Fabric ponúka možnosti na transformáciu, prípravu a skúmanie údajov vo väčšom meradle. S Spark môžu používatelia využívať nástroje PySpark/Python, Scala a SparkR/SparklyR na predbežné spracovanie údajov v mierke. Výkonné knižnice vizualizácií typu open-source môžu zlepšiť možnosti skúmania údajov a pomôcť tak lepšie pochopiť údaje.

Wrangler údajov na bezproblémovú čistenie údajov

Poznámkový blok v službe Microsoft Fabric pridal funkciu na používanie služby Data Wrangler, nástroja na prípravu údajov a generovanie kódu v jazyku Python. Vďaka tomuto zážitku môžete jednoducho zrýchliť únavné a svetské úlohy – napríklad čistenie údajov a vytvorenie opakovateľnosti a automatizácie prostredníctvom vygenerovaného kódu. Ďalšie informácie o Wrangleri údajov nájdete v časti Data Wrangler v tomto dokumente.

Experimentovanie a modelovanie strojového učenia

Pomocou nástrojov ako PySpark/Python, SparklyR/R môžu poznámkové bloky zvládnuť trénovanie modelu strojového učenia.

Algoritmy strojového učenia a knižnice môžu pomôcť trénovať modely strojového učenia. Nástroje na správu knižníc môžu nainštalovať tieto knižnice a algoritmy. Používatelia majú teda možnosť využiť širokú škálu populárnych knižníc strojového učenia na dokončenie trénovania modelu strojového učenia v službe Microsoft Fabric.

Okrem toho môžu obľúbené knižnice, ako napríklad Scikit Learn, tiež vyvíjať modely.

Experimenty a spustenia toku strojového učenia môžu sledovať trénovaie modelu strojového učenia. Microsoft Fabric ponúka vstavané prostredie pre MLflow, s ktorým môžu používatelia interagovať, na zaznamenávanie experimentov a modelov. Ďalšie informácie o tom, ako používať tok ML na sledovanie experimentov a spravovanie modelov v službe Microsoft Fabric.

SynapseML

Open-source knižnica SynapseML (predtým známa ako MMLSpark), ktorú vlastní a spravuje spoločnosť Microsoft, zjednodušuje masívne škálovateľné vytváranie kanálov strojového učenia. Ako ekosystém nástrojov rozširuje architektúru Apache Spark vo viacerých nových smeroch. SynapseML zjednotenie niekoľkých existujúcich rámcov strojového učenia a nových algoritmov spoločnosti Microsoft do jediného škálovateľného rozhrania API. Open-source knižnica SynapseML obsahuje bohatý ekosystém nástrojov strojového učenia na vývoj prediktívnych modelov a využívanie vopred trénovaných modelov AI zo služieb Azure AI. Ďalšie informácie o protokole SynapseML.

Obohatenie a funkčnosť

Poznámkové bloky dokážu zvládnuť dávkové skóre modelov strojového učenia s open-source knižnicami na predpovedanie alebo škálovateľnou univerzálnou funkciou Spark Predict, ktorá podporuje modely zbaleného MLflow v databáze Registry modelu služby Microsoft Fabric.

Získanie prehľadov

V službe Microsoft Fabric je možné predpovedať hodnoty jednoducho zapísať do služby OneLake a bez problémov sa používať zo zostáv služby Power BI pomocou režimu Direct Lake služby Power BI. To uľahčuje odborníkom na dátovú vedu zdieľať výsledky z ich práce so zainteresovanými stranami a zjednodušuje tiež prevádzku.

Poznámkové bloky, ktoré obsahujú dávkové skóre, je možné naplánovať, aby sa mohli spustiť pomocou možností plánovania poznámkového bloku. Dávkové bodovanie možno naplánovať aj ako súčasť aktivít údajového kanála alebo úloh Spark. Vďaka režimu Direct lake v službe Microsoft Fabric power BI automaticky získa najnovšie predpovede bez potreby načítania alebo obnovenia údajov.

Dôležité

Táto funkcia je vo verzii Preview.

Dátoví vedci a obchodní analytici sa veľa času snažia pochopiť, vyčistiť a transformovať údaje, až potom môžu začať používať zmysluplnú analýzu. Obchodní analytici zvyčajne pracujú so sémantickými modelmi a kódujú svoje vedomosti o doméne a obchodnú logiku do mierok služby Power BI. Na druhej strane dátoví vedci môžu pracovať s tými istými údajmi, ale zvyčajne v inom prostredí kódu alebo jazyku.

Sémantické prepojenie (Preview) umožňuje dátovým vedcom vytvoriť spojenie medzi sémantickými modelmi Služby Power BI a prostredím Synapse Data Science v službe Microsoft Fabric prostredníctvom knižnice SemPy Python. SemPy zjednodušuje analýzu údajov zaznamenávaním a využitím sémantiky údajov počas toho, ako používatelia vykonávajú rôzne transformácie v sémantických modeloch. Využitím sémantických prepojení dátov vedci môžu:

  • potrebu opätovného implementácie obchodnej logiky a znalostí o doméne vo svojom kóde
  • jednoduchý prístup k mierkam Služby Power BI a ich používanie vo svojom kóde,
  • používať sémantiku na napájanie nových funkcií, ako sú napríklad sémantické funkcie,
  • preskúmať a overiť funkčné závislosti a vzťahy medzi údajmi,

Pri používaní semPy môžu organizácie očakávať:

  • vyššej produktivity a rýchlejšej spolupráce v rámci tímov, ktoré pracujú s tými istými množinami údajov,
  • vyššej krížovej spolupráce v rámci tímov Business Intelligence a AI.
  • nejednoznačnosť a jednoduchšiu krivku učenia pri prijímaní do nového modelu alebo množiny údajov.

Ďalšie informácie o sémantickom prepojení nájdete v téme Čo je sémantické prepojenie (ukážka)?.