Možnosti strojového učení ve službě Azure Synapse Analytics
Azure Synapse Analytics nabízí různé možnosti strojového učení. Tento článek obsahuje přehled toho, jak můžete Machine Learning v kontextu Azure Synapse.
Tento přehled se zabývá různými možnostmi synapse souvisejícími se strojovým učením z hlediska procesu datových věd.
Možná už víte, jak vypadá typický proces datových věd. Jedná se o dobře známý proces, který sleduje většina projektů strojového učení.
Proces na vysoké úrovni obsahuje následující kroky:
- Porozumění obchodním činnostem (není probíráno v tomto článku)
- Získávání a pochopení dat
- Modelování
- Nasazení a bodování modelů
Tento článek popisuje Azure Synapse strojového učení v různých analytických nástrojích z hlediska procesu datových věd. Pro každý krok v procesu datových věd jsou shrnuty Azure Synapse, které vám můžou pomoct.
Získávání a pochopení dat
Většina projektů strojového učení zahrnuje dobře zavedené kroky a jedním z těchto kroků je přístup k datům a jejich pochopení.
Zdroj dat a kanály
Díky Azure Data Factory, nativně integrované součásti Azure Synapse, je k dispozici výkonná sada nástrojů pro kanály pro příjem dat a orchestraci dat. To vám umožní snadno vytvářet datové kanály pro přístup k datům a transformovat je do formátu, který je možné využívat pro strojové učení. Přečtěte si další informace o datových kanálech ve synapse.
Příprava a zkoumání dat / vizualizace
Důležitou součástí procesu strojového učení je pochopení dat prozkoumáváním a vizualizacemi.
V závislosti na tom, kde jsou data uložená, nabízí Synapse sadu různých nástrojů pro zkoumání a přípravu dat pro analýzy a strojové učení. Jedním z nejrychlejších způsobů, jak začít se zkoumáním dat, je Apache Spark nebo bez serverů SQL přímo nad daty v datovém jezeře.
Apache Spark pro Azure Synapse nabízí možnosti pro transformaci, přípravu a prozkoumání vašich dat ve velkém měřítku. Tyto fondy Sparku nabízejí nástroje, jako jsou PySpark/Python, Scala a .NET pro zpracování dat ve velkém měřítku. Díky výkonným knihovnám vizualizací je možné prostředí pro zkoumání dat vylepšit, aby lépe porozuměli datům. Přečtěte si další informace o zkoumání a vizualizaci dat ve Synapse pomocí Sparku.
Bez serverů SQL nabízí způsob, jak zkoumat data pomocí TSQL přímo přes datové jezero. Bez serverů SQL nabízí také několik integrovaných vizualizací v Synapse Studio. Přečtěte si další informace o tom, jak prozkoumat data s SQL fondy.
Modelování
V Azure Synapse trénování modelů strojového učení je možné ve fondech Apache Spark pomocí nástrojů, jako je PySpark/Python, Scala nebo .NET.
Trénování modelů ve fondech Sparku s MLlib
Modely strojového učení je možné trénovat s pomocí různých algoritmů a knihoven. Spark MLlib nabízí škálovatelné algoritmy strojového učení, které můžou pomoct při řešení většiny klasických problémů strojového učení. Kurz trénování modelu pomocí knihovny MLlib ve synapse najdete v tématu Vytvoření aplikace strojového učení pomocí Apache Spark MLlib a Azure Synapse Analytics.
Kromě knihovny MLlib je možné k vývoji modelů použít také oblíbené knihovny, jako je Scikit Learn. Podrobnosti o instalaci knihoven do Apache Spark fondů Synapse Spark Azure Synapse Analytics v tématu Správa knihoven pro Azure Synapse Analytics ve sparkových aplikacích.
Trénování modelů s Azure Machine Learning automatizovanými ML
Dalším způsobem, jak trénovat modely strojového učení, které nevyžadují příliš předchozí znalost strojového učení, je použití automatizovaných ML. Automatizované ML je funkce, která automaticky natrénuje sadu modelů strojového učení a umožňuje uživateli vybrat nejlepší model na základě konkrétních metrik. Díky bezproblémové integraci s Azure Machine Learning z poznámkových bloků Azure Synapse mohou uživatelé snadno využít automatizované ML ve synapse s předávkovým ověřováním Azure Active Directory dat. To znamená, že musíte pouze odkazovat na pracovní Azure Machine Learning pracovního prostoru a není nutné zadávat žádné přihlašovací údaje. Kurz Trénování modelu v Pythonupomocí automatizovaného strojového učení popisuje, jak trénovat modely pomocí Azure Machine Learning automatizovaných ML ve fondech Synapse Spark.
Nasazení a bodování modelů
Modely vytrénované buď v Azure Synapse nebo mimo Azure Synapse lze snadno použít k dávkovému bodování. V současné době ve synapse existují dva způsoby, jak můžete spustit dávkové bodování.
Pomocí funkce PREDICT pro TSQL ve fondech synapse SQL můžete spouštět predikce přesně tam, kde jsou vaše data. Tato výkonná a škálovatelná funkce umožňuje obohatit vaše data bez přesunu dat z datového skladu. Zavedli jsme nové prostředí modelu strojového učení s průvodcem v Synapse Studio, ve kterém můžete nasadit model ONNX z registru modelů Azure Machine Learning ve fondech SQL Synapse pro dávkové bodování pomocí funkce PREDICT.
Další možností pro modely strojového učení dávkového vyhodnocování v Azure Synapse je využít fondy Apache Spark pro Azure Synapse. V závislosti na knihovnách používaných k trénování modelů můžete ke spuštění dávkového bodování použít prostředí kódu.