Maskininlärningsfunktioner i Azure Synapse Analytics
Azure Synapse Analytics erbjuder olika maskininlärningsfunktioner. Den här artikeln innehåller en översikt över hur du Machine Learning i kontexten för Azure Synapse.
Den här översikten beskriver de olika funktionerna i Synapse som rör maskininlärning ur ett datavetenskapsprocessperspektiv.
Du kanske känner till hur en typisk datavetenskapsprocess ser ut. Det är en välkänd process som de flesta maskininlärningsprojekt följer.
På en hög nivå innehåller processen följande steg:
- Affärsförståelse (beskrivs inte i den här artikeln)
- Förvärv och förståelse av data
- Modellering
- Modelldistribution och bedömning
Den här artikeln beskriver Azure Synapse maskininlärningsfunktioner i olika analysmotorer, ur ett datavetenskapsprocessperspektiv. För varje steg i data science-processen sammanfattas Azure Synapse funktioner som kan vara till hjälp.
Förvärv och förståelse av data
De flesta maskininlärningsprojekt omfattar väletablerade steg, och ett av dessa steg är att komma åt och förstå data.
Datakälla och pipelines
Tack vare Azure Data Factory, en inbyggt integrerad del av Azure Synapse, finns det en kraftfull uppsättning verktyg för datainmatning och pipelines för dataorkestrering. På så sätt kan du enkelt skapa datapipelines för att komma åt och transformera data till ett format som kan användas för maskininlärning. Läs mer om datapipelines i Synapse.
Förberedelse av data och utforskning/visualisering
En viktig del av maskininlärningsprocessen är att förstå data genom utforskning och visualiseringar.
Beroende på var data lagras erbjuder Synapse en uppsättning olika verktyg för att utforska och förbereda dem för analys och maskininlärning. Ett av de snabbaste sätten att komma igång med datautforskning är att använda Apache Spark eller serverlösa SQL direkt över data i datasjön.
Apache Spark för Azure Synapse funktioner för att transformera, förbereda och utforska dina data i stor skala. Dessa Spark-pooler erbjuder verktyg som PySpark/Python, Scala och .NET för databearbetning i stor skala. Med hjälp av kraftfulla visualiseringsbibliotek kan datautforskningsupplevelsen förbättras för att bättre förstå data. Läs mer om hur du utforskar och visualiserar data i Synapse med spark.
Serverlösa SQL är ett sätt att utforska data med hjälp av TSQL direkt över datasjön. Serverlösa SQL pooler erbjuder även vissa inbyggda visualiseringar i Synapse Studio. Läs mer om hur du utforskar data med serverlösa SQL pooler.
Modellering
I Azure Synapse kan du träna maskininlärningsmodeller i Apache Spark pooler med verktyg som PySpark/Python, Scala eller .NET.
Träna modeller i Spark-pooler med MLlib
Maskininlärningsmodeller kan tränas med hjälp av olika algoritmer och bibliotek. Spark MLlib erbjuder skalbara maskininlärningsalgoritmer som kan hjälpa dig att lösa de flesta klassiska maskininlärningsproblem. En självstudiekurs om hur du tränar en modell med hjälp av MLlib i Synapse finns i Skapa en maskininlärningsapp med Apache Spark MLlib och Azure Synapse Analytics.
Förutom MLlib kan även populära bibliotek som Scikit Learn användas för att utveckla modeller. Se Hantera bibliotek för Apache Spark i Azure Synapse Analytics information om hur du installerar bibliotek på Synapse Spark-pooler.
Träna modeller med Azure Machine Learning automatiserad ML
Ett annat sätt att träna maskininlärningsmodeller, som inte kräver mycket tidigare kunskaper om maskininlärning, är att använda automatiserad ML. Automatiserad ML är en funktion som automatiskt tränar en uppsättning maskininlärningsmodeller och gör att användaren kan välja den bästa modellen baserat på specifika mått. Tack vare en sömlös integrering med Azure Machine Learning från Azure Synapse Notebooks kan användarna enkelt utnyttja automatiserad ML i Synapse med genomströmning Azure Active Directory autentisering. Det innebär att du bara behöver peka på Azure Machine Learning arbetsyta och inte behöver ange några autentiseringsuppgifter. Självstudien Träna en modell i Pythonmed automatiserad maskininlärning beskriver hur du tränar modeller med hjälp av Azure Machine Learning automatiserade ML på Synapse Spark-pooler.
Modelldistribution och bedömning
Modeller som har tränats i antingen Azure Synapse eller Azure Synapse kan enkelt användas för batchbedömning. För närvarande finns det två sätt att köra batchbedömning på i Synapse.
Du kan använda funktionen TSQL PREDICT i Synapse SQL för att köra dina förutsägelser precis där dina data finns. Med den här kraftfulla och skalbara funktionen kan du utöka dina data utan att flytta några data från ditt informationslager. En ny guidad maskininlärningsmodell i Synapse Studio introducerades där du kan distribuera en ONNX-modell från Azure Machine Learning-modellregistret i Synapse SQL-pooler för batchbedömning med hjälp av PREDICT.
Ett annat alternativ för maskininlärningsmodeller med batchbedömning i Azure Synapse är att använda Apache Spark pooler för Azure Synapse. Beroende på vilka bibliotek som används för att träna modellerna kan du använda en kodupplevelse för att köra batchbedömningen.