Gépi tanulási modellek betanítása

Cikk
03/12/2024

Az Azure Synapse Analyticsben futó Apache Spark lehetővé teszi a big data-alapú gépi tanulást, így értékes megállapításokat kaphat nagy mennyiségű strukturált, strukturálatlan és gyorsan mozgó adatból. Az Azure Synapse Analyticsben az Azure Sparkot használó gépi tanulási modellek betanítására több lehetőség is van: Apache Spark MLlib, Azure Machine Tanulás és más nyílt forráskódú kódtárak.

Apache SparkML és MLlib

Az Azure Synapse Analyticsben üzemelő Apache Spark az Apache Spark egyik felhőbeli megvalósítása a Microsofttól. Egységes, nyílt forráskódú párhuzamos adatfeldolgozási keretrendszert biztosít, amely támogatja a memórián belüli feldolgozást a big data-elemzések fellendítése érdekében. A Spark-feldolgozó motor a sebesség, a könnyű használat és a kifinomult elemzés érdekében készült. A Spark memóriabeli elosztott számítási képességei jó választássá teszik a gépi tanulásban és a gráfszámításban használt iteratív algoritmusok számára.

Két méretezhető gépi tanulási kódtár biztosítja az algoritmikus modellezési képességeket ehhez az elosztott környezethez: az MLlibhez és a SparkML-hez. Az MLlib az RDD-kre épülő eredeti API-t tartalmazza. A SparkML egy újabb csomag, amely egy magasabb szintű API-t biztosít, amely a DataFrame-ekre épül az ML-folyamatok létrehozásához. A SparkML még nem támogatja az MLlib összes funkcióját, de az MLlib-t a Spark standard gépi tanulási kódtáraként cseréli le.

Feljegyzés

Az oktatóanyagot követve többet is megtudhat a SparkML-modellek létrehozásáról.

Népszerű kódtárak

Az Azure Synapse Analytics minden Apache Spark-készlete előre betöltött és népszerű gépi tanulási kódtárakkal rendelkezik. Ezek a kódtárak olyan újrafelhasználható kódot biztosítanak, amelyet érdemes lehet belefoglalni a programokba vagy projektekbe. A gépi tanulási kódtárak közül néhány alapértelmezés szerint a következőket tartalmazza:

A Scikit-learn a klasszikus ML-algoritmusok egyik legnépszerűbb egycsomópontos gépi tanulási kódtára. A Scikit-learn a felügyelt és felügyelet nélküli tanulási algoritmusok többségét támogatja, és adatbányászathoz és adatelemzéshez is használható.
Az XGBoost egy népszerű gépi tanulási kódtár, amely optimalizált algoritmusokat tartalmaz döntési fák és véletlenszerű erdők betanításához.
A PyTorch & Tensorflow hatékony Python-mélytanulási kódtárak. Az Azure Synapse AnalyticsBen található Apache Spark-készletben ezek a kódtárak segítségével egygépes modelleket hozhat létre a készlet végrehajtóinak számának nullára állításával. Bár az Apache Spark ebben a konfigurációban nem működik, egyszerű és költséghatékony módszer az egygépes modellek létrehozására.

Az elérhető kódtárakról és a kapcsolódó verziókról a közzétett Azure Synapse Analytics-futtatókörnyezet megtekintésével tudhat meg többet.

MMLSpark

Az Apache Spark Microsoft Machine Tanulás könyvtára az MMLSpark. Ez a kódtár úgy lett kialakítva, hogy az adattudósok hatékonyabbá tegyék a Sparkot, növeljék a kísérletezési arányt, és kihasználják a legmodernebb gépi tanulási technikákat, köztük a mély tanulást a nagy adathalmazokon.

Az MMLSpark egy réteget biztosít a SparkML alacsony szintű API-jaira méretezhető ML-modellek létrehozásakor, például sztringek indexelése, adatok gépi tanulási algoritmusok által várt elrendezésre kényszerítése és funkcióvektorok összeállítása során. Az MMLSpark könyvtár leegyszerűsíti ezeket és más gyakori feladatokat a PySpark modelljeinek létrehozásához.

Automatizált gépi tanulás az Azure Machine Tanulás -ban (elavult)

Az Azure Machine Tanulás egy felhőalapú környezet, amely lehetővé teszi a gépi tanulási modellek betanítása, üzembe helyezése, automatizálása, kezelése és nyomon követése. Az Azure Machine automatizált gépi tanulási Tanulás fogadja a betanítási adatokat és a konfigurációs beállításokat, és automatikusan iterálja a különböző funkciók normalizálási/szabványosítási módszereinek, modelljeinek és hiperparaméter-beállításainak kombinációjával, hogy a legjobb modellt érje el.

Ha automatizált ml-t használ az Azure Synapse Analyticsben, a különböző szolgáltatások közötti mély integrációt kihasználva egyszerűsítheti a hitelesítés és a modell betanítását.

Figyelmeztetés

2023. szeptember 29-én az Azure Synapse megszünteti a Spark 2.4-futtatókörnyezetek hivatalos támogatását. 2023. szeptember 29-én nem foglalkozunk a Spark 2.4-hez kapcsolódó támogatási jegyekkel. A Spark 2.4 hiba- vagy biztonsági javításaihoz nem lesz kiadási folyamat. A Spark 2.4-et a támogatási leépítési dátum után saját felelősségre hajtjuk végre. A potenciális biztonsági és működési problémák miatt határozottan elriasztjuk a folyamatos használattól.
Az Apache Spark 2.4 elavulásának részeként értesíteni szeretnénk, hogy az Azure Synapse Analytics autoML-jének elavultsága is megszűnik. Ez magában foglalja az alacsony kódfelületet és az AutoML-próbaverziók kódon keresztüli létrehozásához használt API-kat is.
Vegye figyelembe, hogy az AutoML funkció kizárólag a Spark 2.4-es futtatókörnyezeten keresztül volt elérhető.
AzOknak az ügyfeleknek, akik továbbra is szeretnék kihasználni az AutoML képességeit, javasoljuk, hogy mentse az adatokat az Azure Data Lake Storage Gen2 (ADLSg2) fiókjába. Innen zökkenőmentesen elérheti az AutoML-felületet az Azure Machine Tanulás (AzureML) használatával. A kerülő megoldással kapcsolatos további információk itt érhetők el.

Azure AI services

Az Azure AI-szolgáltatások gépi tanulási képességeket biztosítanak olyan általános problémák megoldásához, mint például a szöveg érzelmi hangulatának elemzése vagy képek elemzése objektumok vagy arcok felismeréséhez. Ezen szolgáltatások használatához nincs szükség különleges gépi tanulási vagy adatelemzési ismeretekre. A Cognitive Service egy gépi tanulási megoldás összetevőinek egy részét vagy egészét biztosítja: adatokat, algoritmusokat és betanított modelleket. Ezeknek a szolgáltatásoknak az a célja, hogy általános ismereteket igényeljenek az adatokról anélkül, hogy gépi tanulással vagy adatelemzéssel kapcsolatos tapasztalatra lenne szükségük. Ezeket az előre betanított Azure AI-szolgáltatásokat automatikusan használhatja az Azure Synapse Analyticsben.

Következő lépések

Ez a cikk áttekintést nyújt a gépi tanulási modellek Apache Spark-készletekben való betanítása különböző lehetőségeiről az Azure Synapse Analyticsben. A modell betanításáról az alábbi oktatóanyagot követve tudhat meg többet:

Automatizált gépi tanulási kísérletek futtatása az Azure Machine Tanulás és az Azure Synapse Analytics használatával: Automatizált gépi tanulási oktatóanyag
SparkML-kísérletek futtatása: Apache SparkML-oktatóanyag
Az alapértelmezett kódtárak megtekintése: Azure Synapse Analytics-futtatókörnyezet