Možnosti strojového učení ve službě Azure Synapse Analytics

Azure Synapse Analytics nabízí různé možnosti strojového učení. Tento článek obsahuje přehled možností použití Učení počítače v kontextu Azure Synapse.

Tento přehled popisuje různé možnosti v Synapse související se strojovým učením z pohledu procesu datových věd.

Možná znáte, jak vypadá typický proces datových věd. Jedná se o dobře známý proces, který sleduje většina projektů strojového učení.

Na vysoké úrovni proces obsahuje následující kroky:

  • Obchodní porozumění (není popsáno v tomto článku)
  • Získávání a pochopení dat
  • Modelování
  • Nasazení modelu a bodování

Tento článek popisuje možnosti strojového učení Azure Synapse v různých analytických modulech z pohledu procesu datových věd. Pro každý krok v procesu datových věd jsou shrnuté funkce Azure Synapse, které vám můžou pomoct.

Získávání a pochopení dat

Většina projektů strojového učení zahrnuje dobře zavedené kroky a jedním z těchto kroků je přístup k datům a jejich pochopení.

Zdroj dat a kanály

Díky službě Azure Data Factory, která je nativně integrovaná součást Azure Synapse, je k dispozici výkonná sada nástrojů pro příjem dat a kanály orchestrace dat. Díky tomu můžete snadno vytvářet datové kanály pro přístup k datům a transformovat je do formátu, který je možné využívat pro strojové učení. Přečtěte si další informace o datových kanálech ve službě Synapse.

Příprava a zkoumání a vizualizace dat

Důležitou součástí procesu strojového učení je pochopení dat zkoumáním a vizualizacemi.

V závislosti na tom, kde se data ukládají, nabízí Synapse sadu různých nástrojů pro zkoumání a přípravu na analýzu a strojové učení. Jedním z nejrychlejších způsobů, jak začít zkoumat data, je použití Apache Sparku nebo bezserverových fondů SQL přímo nad daty v datovém jezeře.

Modelování

V Azure Synapse je možné trénování modelů strojového učení provádět ve fondech Apache Spark pomocí nástrojů, jako je PySpark/Python, Scala nebo .NET.

Trénování modelů ve fondech Sparku pomocí knihovny MLlib

Modely strojového učení je možné trénovat pomocí různých algoritmů a knihoven. Spark MLlib nabízí škálovatelné algoritmy strojového učení, které pomáhají řešit většinu klasických problémů strojového učení. Kurz o trénování modelu pomocí knihovny MLlib ve službě Synapse najdete v tématu Vytvoření aplikace strojového učení pomocí knihovny Apache Spark MLlib a Azure Synapse Analytics.

Kromě knihovny MLlib se k vývoji modelů dají použít také oblíbené knihovny, jako je Scikit Learn . Podrobnosti o instalaci knihoven do fondů Synapse Spark ve službě Synapse Analytics najdete v tématu Správa knihoven pro Apache Spark v Azure Synapse Analytics .

Trénování modelů pomocí automatizovaného strojového učení Azure Machine Učení

Dalším způsobem, jak trénovat modely strojového učení, které nevyžadují příliš předchozí znalost strojového učení, je použití automatizovaného strojového učení. Automatizované strojové učení je funkce, která automaticky trénuje sadu modelů strojového učení a umožňuje uživateli vybrat nejlepší model na základě konkrétních metrik. Díky bezproblémové integraci se službou Azure Machine Učení z Azure Synapse Notebooks můžou uživatelé snadno využít automatizované strojové učení ve službě Synapse s předávacím ověřováním Microsoft Entra. To znamená, že stačí odkazovat jenom na pracovní prostor Azure Machine Učení a nemusíte zadávat žádné přihlašovací údaje. Kurz trénování modelu v Pythonu pomocí automatizovaného strojového učení popisuje, jak trénovat modely pomocí služby Azure Machine Učení automatizovaného strojového učení ve fondech Synapse Spark.

Upozorňující

  • Od 29. září 2023 ukončí Azure Synapse oficiální podporu pro moduly Runtime Sparku 2.4. Po 29. září 2023 nebudeme řešit žádné lístky podpory související se Sparkem 2.4. Pro chyby nebo opravy zabezpečení pro Spark 2.4 nebude zaveden žádný kanál verze. Využití Sparku 2.4 po datu ukončení podpory se provádí na vlastním riziku. Důrazně nedoporučujeme jeho trvalé používání kvůli potenciálním obavám o zabezpečení a funkčnost.
  • V rámci procesu vyřazení Apache Sparku 2.4 bychom vás chtěli upozornit, že AutoML ve službě Azure Synapse Analytics bude také zastaralé. To zahrnuje rozhraní s nízkým kódem i rozhraní API používaná k vytváření zkušebních verzí AutoML prostřednictvím kódu.
  • Mějte na paměti, že funkce AutoML byla výhradně dostupná prostřednictvím modulu runtime Spark 2.4.
  • Zákazníkům, kteří chtějí dál využívat funkce AutoML, doporučujeme ukládat data do účtu Azure Data Lake Storage Gen2 (ADLSg2). Odtud můžete bez problémů přistupovat k prostředí AutoML prostřednictvím služby Azure Machine Učení (AzureML). Další informace týkající se tohoto alternativního řešení najdete tady.

Nasazení modelu a bodování

Modely, které byly natrénovány v Azure Synapse nebo mimo Azure Synapse, se dají snadno použít k dávkovému vyhodnocování. V současné době ve službě Synapse existují dva způsoby, kterými můžete spustit dávkové vyhodnocování.

  • Pomocí funkce TSQL PREDICT ve fondech Synapse SQL můžete spouštět předpovědi přímo tam, kde se nacházejí vaše data. Tato výkonná a škálovatelná funkce umožňuje rozšířit data bez přesunu dat z datového skladu. V nástroji Synapse Studio bylo zavedeno nové prostředí modelu strojového učení s asistencí, ve kterém můžete nasadit model ONNX z registru modelů azure Machine Učení ve fondech Synapse SQL pro dávkové vyhodnocování pomocí funkce PREDICT.

  • Další možností pro dávkové bodování modelů strojového učení v Azure Synapse je využití fondů Apache Spark pro Azure Synapse. V závislosti na knihovnách používaných k trénování modelů můžete ke spuštění dávkového vyhodnocování použít prostředí kódu.

SynapseML

SynapseML (dříve označovaná jako MMLSpark) je opensourcová knihovna, která zjednodušuje vytváření široce škálovatelných kanálů strojového učení (ML). Jedná se o ekosystém nástrojů, které slouží k rozšíření architektury Apache Spark v několika nových směrech. SynapseML sjednocuje několik existujících architektur strojového učení a nových algoritmů Microsoftu do jednoho škálovatelného rozhraní API, které je použitelné napříč Pythonem, R, Scalou, .NET a Javou. Další informace najdete v klíčových funkcích SynapseML.

Další kroky