Az Azure Synapse Analytics gépi tanulási képességei

Azure Synapse Analytics gépi tanulási képességeket kínál. Ez a cikk áttekintést nyújt a Machine Learning alkalmazásról a Azure Synapse.

Ez az áttekintés az adattudományi folyamatok szempontjából a gépi tanuláshoz kapcsolódó különböző Képességeket tartalmazza a Synapse-ban.

Lehet, hogy már ismeri a tipikus adattudományi folyamatok kinézetét. Ez egy jól ismert folyamat, amelyet a legtöbb gépi tanulási projekt követ.

A folyamat magas szinten a következő lépéseket tartalmazza:

  • Üzleti ismeretek (a cikk nem tárgyalja)
  • Adatgyűjtés és adatértelmezés
  • Modellezés
  • Modell üzembe helyezése és pontozása

Ez a cikk Azure Synapse gépi tanulási képességeket ismerteti a különböző elemzési motorokban az adatelemzési folyamatok szempontjából. Az adattudományi folyamat minden lépéséhez össze kell Azure Synapse az adattudományi képességeket.

Adatgyűjtés és adatértelmezés

A legtöbb gépi tanulási projekt jól bevált lépésekből áll, és az egyik ilyen lépés az adatok elérése és megismerása.

Adatforrás és folyamatok

A Azure Data Factorynatív módon integrált Azure Synapse köszönhetően hatékony eszközök állnak rendelkezésre az adatbefedő és adatvezénylési folyamatokhoz. Ez lehetővé teszi, hogy könnyedén építsen fel olyan folyamatokat, amelyek a gépi tanuláshoz szükséges formátumba férnek hozzá és alakítják át az adatokat. További információ a Synapse-hez szükséges folyamatokról.

Adat-előkészítés és -feltárás/vizualizáció

A gépi tanulási folyamat fontos része az adatok feltárás és vizualizációk segítségével való megismerása.

Attól függően, hogy hol vannak tárolva az adatok, a Synapse különböző eszközöket kínál az elemzéshez és a gépi tanuláshoz való előkészítéshez. Az adatfeltárás használatának egyik leggyorsabb módja a Apache Spark kiszolgáló nélküli SQL a data lake-ben található adatokon.

  • Apache Spark a Azure Synapse az adatok nagy léptékű átalakítására, előkészítésére és feltárására vonatkozó képességeket kínál. Ezek a Spark-készletek olyan eszközöket kínálnak a nagy léptékű adatfeldolgozáshoz, mint a PySpark/Python, a Scala és a .NET. Hatékony vizualizációs kódtárak használatával továbbfejlesztheti az adatfeltárási élményt, hogy jobban megértse az adatokat. További információ arról, hogyan tárhatja fel és vizualizálhatja az adatokat a Synapse-ban a Spark használatával.

  • A kiszolgáló nélküli SQL segítségével közvetlenül a Data Lake-ben tárhatja fel az adatokat a TSQL használatával. A kiszolgáló nélküli SQL készletek beépített vizualizációkat is kínálnak a Synapse Studio. További információ az adatok kiszolgáló nélküli SQL való feltárásról.

Modellezés

Ebben Azure Synapse a gépi tanulási modellek betanítása elvégezhető a Apache Spark-készleteken olyan eszközökkel, mint a PySpark/Python, a Scala vagy a .NET.

Modellek betanítása Spark-készleteken az MLlib-el

A gépi tanulási modellek különböző algoritmusok és kódtárak segítségével taníthatóak be. A Spark MLlib skálázható gépi tanulási algoritmusokat kínál, amelyek segíthetnek a legtöbb klasszikus gépi tanulási probléma megoldásában. A modellek az MLlib használatával a Synapse-ban való betanítást bemutató oktatóanyagért lásd: Gépi tanulási alkalmazás összeállítása az MLlib Apache Spark és a Azure Synapse Analytics.

Az MLlib mellett olyan népszerű kódtárak is használhatók modellek fejlesztésére, mint a Scikit Learn. A kódtárak Synapse Spark Apache Spark készletre való telepítésével kapcsolatos részletekért tekintse meg Azure Synapse Analytics Kódtárak kezelése az Azure Synapse Analytics-ban.

Modellek betanítása Azure Machine Learning automatizált ML

A gépi tanulási modellek betanítása egy másik módja, amely nem igényel sokkal korábbi gépi tanulást, az automatizált tanulási ML. Az ML egy olyan funkció, amely automatikusan betanulja a gépi tanulási modellek egy készletét, és lehetővé teszi a felhasználó számára a legjobb modell kiválasztását adott metrikák alapján. Az Azure Synapse Notebooksból származó Azure Machine Learning zökkenőmentes integrációnak köszönhetően a felhasználók könnyedén kihasználhatnak ML Synapse automatizált Azure Active Directory hitelesítéssel. Ez azt jelenti, hogy csak a saját munkaterületére Azure Machine Learning, és nem kell hitelesítő adatokat megadnia. A Modell betanítása Pythonbanautomatizált gépi tanulással oktatóanyag bemutatja, hogyan lehet modelleket betanítni a Synapse Spark Azure Machine Learning készletek automatizált ML használatával.

Modell üzembe helyezése és pontozása

A Azure Synapse vagy Azure Synapse betanított modellek egyszerűen használhatók kötegelt pontozáshoz. Jelenleg a Synapse-ban kétféleképpen futtathat kötegelt pontozást.

  • A Synapse-adatbáziskészletek TSQL PREDICT függvényével SQL, hogy az előrejelzéseket ott futtassa, ahol az adatok vannak. Ez a hatékony és skálázható funkció lehetővé teszi az adatok gazdagítását anélkül, hogy adatokat mozgathat az adattárházból. A Synapse Studio-ban egy új interaktív gépi tanulási modell lett bevezetve, amelyben onnx modellt helyezhet üzembe a Synapse SQL Azure Machine Learning-készletekben található Azure Machine Learning modelljegyzékből a kötegelt pontozáshoz a PREDICT használatával.

  • A gépi tanulási modellek kötegelt pontozásának egy másik Azure Synapse, ha kihasználja a Apache Spark készleteket a Azure Synapse. A modellek betanítása során használt kódtáraktól függően kóddal futtathatja a kötegelt pontozást.

Következő lépések