Možnosti strojového učení ve službě Azure Synapse Analytics

Článek
03/12/2024

Azure Synapse Analytics nabízí různé možnosti strojového učení. Tento článek obsahuje přehled možností použití Učení počítače v kontextu Azure Synapse.

Tento přehled popisuje různé možnosti v Synapse související se strojovým učením z pohledu procesu datových věd.

Možná znáte, jak vypadá typický proces datových věd. Jedná se o dobře známý proces, který sleduje většina projektů strojového učení.

Na vysoké úrovni proces obsahuje následující kroky:

Obchodní porozumění (není popsáno v tomto článku)
Získávání a pochopení dat
Modelování
Nasazení modelu a bodování

Tento článek popisuje možnosti strojového učení Azure Synapse v různých analytických modulech z pohledu procesu datových věd. Pro každý krok v procesu datových věd jsou shrnuté funkce Azure Synapse, které vám můžou pomoct.

Získávání a pochopení dat

Většina projektů strojového učení zahrnuje dobře zavedené kroky a jedním z těchto kroků je přístup k datům a jejich pochopení.

Zdroj dat a kanály

Díky službě Azure Data Factory, která je nativně integrovaná součást Azure Synapse, je k dispozici výkonná sada nástrojů pro příjem dat a kanály orchestrace dat. Díky tomu můžete snadno vytvářet datové kanály pro přístup k datům a transformovat je do formátu, který je možné využívat pro strojové učení. Přečtěte si další informace o datových kanálech ve službě Synapse.

Příprava a zkoumání a vizualizace dat

Důležitou součástí procesu strojového učení je pochopení dat zkoumáním a vizualizacemi.

V závislosti na tom, kde se data ukládají, nabízí Synapse sadu různých nástrojů pro zkoumání a přípravu na analýzu a strojové učení. Jedním z nejrychlejších způsobů, jak začít zkoumat data, je použití Apache Sparku nebo bezserverových fondů SQL přímo nad daty v datovém jezeře.

Apache Spark pro Azure Synapse nabízí možnosti transformace, přípravy a zkoumání dat ve velkém měřítku. Tyto fondy Spark nabízejí nástroje, jako je PySpark/Python, Scala a .NET pro zpracování dat ve velkém měřítku. Pomocí výkonných knihoven vizualizací je možné vylepšit prostředí pro zkoumání dat, které vám pomůže lépe porozumět datům. Přečtěte si další informace o tom, jak zkoumat a vizualizovat data ve službě Synapse pomocí Sparku.
Bezserverové fondy SQL nabízejí způsob, jak zkoumat data pomocí TSQL přímo přes datové jezero. Bezserverové fondy SQL také nabízejí některé integrované vizualizace v synapse Studiu. Přečtěte si další informace o tom, jak zkoumat data pomocí bezserverových fondů SQL.

Modelování

V Azure Synapse je možné trénování modelů strojového učení provádět ve fondech Apache Spark pomocí nástrojů, jako je PySpark/Python, Scala nebo .NET.

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Modely strojového učení je možné trénovat pomocí různých algoritmů a knihoven. Spark MLlib nabízí škálovatelné algoritmy strojového učení, které pomáhají řešit většinu klasických problémů strojového učení. Kurz o trénování modelu pomocí knihovny MLlib ve službě Synapse najdete v tématu Vytvoření aplikace strojového učení pomocí knihovny Apache Spark MLlib a Azure Synapse Analytics.

Kromě knihovny MLlib se k vývoji modelů dají použít také oblíbené knihovny, jako je Scikit Learn . Podrobnosti o instalaci knihoven do fondů Synapse Spark ve službě Synapse Analytics najdete v tématu Správa knihoven pro Apache Spark v Azure Synapse Analytics .

Trénování modelů pomocí automatizovaného strojového učení Azure Machine Učení

Dalším způsobem, jak trénovat modely strojového učení, které nevyžadují příliš předchozí znalost strojového učení, je použití automatizovaného strojového učení. Automatizované strojové učení je funkce, která automaticky trénuje sadu modelů strojového učení a umožňuje uživateli vybrat nejlepší model na základě konkrétních metrik. Díky bezproblémové integraci se službou Azure Machine Učení z Azure Synapse Notebooks můžou uživatelé snadno využít automatizované strojové učení ve službě Synapse s předávacím ověřováním Microsoft Entra. To znamená, že stačí odkazovat jenom na pracovní prostor Azure Machine Učení a nemusíte zadávat žádné přihlašovací údaje. Kurz trénování modelu v Pythonu pomocí automatizovaného strojového učení popisuje, jak trénovat modely pomocí služby Azure Machine Učení automatizovaného strojového učení ve fondech Synapse Spark.

Upozorňující

Od 29. září 2023 ukončí Azure Synapse oficiální podporu pro moduly Runtime Sparku 2.4. Po 29. září 2023 nebudeme řešit žádné lístky podpory související se Sparkem 2.4. Pro chyby nebo opravy zabezpečení pro Spark 2.4 nebude zaveden žádný kanál verze. Využití Sparku 2.4 po datu ukončení podpory se provádí na vlastním riziku. Důrazně nedoporučujeme jeho trvalé používání kvůli potenciálním obavám o zabezpečení a funkčnost.
V rámci procesu vyřazení Apache Sparku 2.4 bychom vás chtěli upozornit, že AutoML ve službě Azure Synapse Analytics bude také zastaralé. To zahrnuje rozhraní s nízkým kódem i rozhraní API používaná k vytváření zkušebních verzí AutoML prostřednictvím kódu.
Mějte na paměti, že funkce AutoML byla výhradně dostupná prostřednictvím modulu runtime Spark 2.4.
Zákazníkům, kteří chtějí dál využívat funkce AutoML, doporučujeme ukládat data do účtu Azure Data Lake Storage Gen2 (ADLSg2). Odtud můžete bez problémů přistupovat k prostředí AutoML prostřednictvím služby Azure Machine Učení (AzureML). Další informace týkající se tohoto alternativního řešení najdete tady.

Nasazení modelu a bodování

Modely, které byly natrénovány v Azure Synapse nebo mimo Azure Synapse, se dají snadno použít k dávkovému vyhodnocování. V současné době ve službě Synapse existují dva způsoby, kterými můžete spustit dávkové vyhodnocování.

Pomocí funkce TSQL PREDICT ve fondech Synapse SQL můžete spouštět předpovědi přímo tam, kde se nacházejí vaše data. Tato výkonná a škálovatelná funkce umožňuje rozšířit data bez přesunu dat z datového skladu. V nástroji Synapse Studio bylo zavedeno nové prostředí modelu strojového učení s asistencí, ve kterém můžete nasadit model ONNX z registru modelů azure Machine Učení ve fondech Synapse SQL pro dávkové vyhodnocování pomocí funkce PREDICT.
Další možností pro dávkové bodování modelů strojového učení v Azure Synapse je využití fondů Apache Spark pro Azure Synapse. V závislosti na knihovnách používaných k trénování modelů můžete ke spuštění dávkového vyhodnocování použít prostředí kódu.

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které slouží k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API, které je použitelné napříč Pythonem, R, Scalou, .NET a Javou. Další informace najdete v klíčových funkcích SynapseML.