Machine learning-modellen trainen

Artikel
03/12/2024

Apache Spark in Azure Synapse Analytics maakt machine learning mogelijk met big data, waardoor u waardevolle inzichten kunt verkrijgen uit grote hoeveelheden gestructureerde, ongestructureerde en snel veranderende gegevens. Er zijn verschillende opties voor het trainen van machine learning-modellen met behulp van Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning en verschillende andere opensource-bibliotheken.

Apache SparkML en MLlib

Apache Spark in Azure Synapse Analytics is een van de implementaties van Apache Spark van Microsoft in de cloud. Het biedt een geïntegreerd opensource, parallel gegevensverwerkingsframework dat ondersteuning biedt voor in-memory verwerking om big data-analyses te stimuleren. De Spark-verwerkingsengine is gebouwd voor snelheid, gebruiksgemak en geavanceerde analyses. De gedistribueerde rekenmogelijkheden in het geheugen van Spark maken het een goede keuze voor de iteratieve algoritmen die worden gebruikt in machine learning- en grafiekberekeningen.

Er zijn twee schaalbare machine learning-bibliotheken die algoritmemodelleringsmogelijkheden naar deze gedistribueerde omgeving brengen: MLlib en SparkML. MLlib bevat de oorspronkelijke API die is gebouwd op RDD's. SparkML is een nieuwer pakket dat een API op een hoger niveau biedt die is gebouwd op DataFrames voor het maken van ML-pijplijnen. SparkML biedt nog geen ondersteuning voor alle functies van MLlib, maar vervangt MLlib als de standaard machine learning-bibliotheek van Spark.

Notitie

U vindt meer informatie over het maken van een SparkML-model door deze zelfstudie te volgen.

Populaire bibliotheken

Elke Apache Spark-pool in Azure Synapse Analytics wordt geleverd met een set vooraf geladen en populaire machine learning-bibliotheken. Deze bibliotheken bieden herbruikbare code die u mogelijk wilt opnemen in uw programma's of projecten. Enkele van de relevante machine learning-bibliotheken die standaard zijn opgenomen, zijn:

Scikit-learn is een van de populairste machine learning-bibliotheken met één knooppunt voor klassieke ML-algoritmen. Scikit-learn ondersteunt de meeste leeralgoritmen onder supervisie en zonder supervisie en kan ook worden gebruikt voor gegevensanalyse en gegevensanalyse.
XGBoost is een populaire machine learning-bibliotheek die geoptimaliseerde algoritmen bevat voor het trainen van beslissingsstructuren en willekeurige forests.
PyTorch & Tensorflow zijn krachtige Python Deep Learning-bibliotheken. In een Apache Spark-pool in Azure Synapse Analytics kunt u deze bibliotheken gebruiken om modellen met één machine te bouwen door het aantal uitvoerders in uw pool in te stellen op nul. Hoewel Apache Spark niet werkt in deze configuratie, is het een eenvoudige en rendabele manier om modellen met één machine te maken.

U vindt meer informatie over de beschikbare bibliotheken en gerelateerde versies door de gepubliceerde Azure Synapse Analytics-runtime te bekijken.

MMLSpark

De Microsoft Machine Learning-bibliotheek voor Apache Spark is MMLSpark. Deze bibliotheek is ontworpen om gegevenswetenschappers productiever te maken in Spark, het aantal experimenten te verhogen en geavanceerde machine learning-technieken te gebruiken, waaronder deep learning, op grote gegevenssets.

MMLSpark biedt een laag boven op de API's op laag niveau van SparkML bij het bouwen van schaalbare ML-modellen, zoals het indexeren van tekenreeksen, het coerceren van gegevens in een indeling die wordt verwacht door machine learning-algoritmen en het samenstellen van functievectoren. De MMLSpark-bibliotheek vereenvoudigt deze en andere algemene taken voor het bouwen van modellen in PySpark.

Geautomatiseerde ML in Azure Machine Learning (afgeschaft)

Azure Machine Learning is een cloudomgeving die u kunt gebruiken voor het trainen, implementeren, automatiseren, beheren en volgen van machine learning-modellen. Geautomatiseerde ML in Azure Machine Learning accepteert trainingsgegevens en configuratie-instellingen en doorloopt automatisch combinaties van verschillende functienormalisatie-/standaardisatiemethoden, modellen en hyperparameterinstellingen om het beste model te bereiken.

Wanneer u geautomatiseerde ML in Azure Synapse Analytics gebruikt, kunt u gebruikmaken van de diepe integratie tussen de verschillende services om verificatie en modeltraining te vereenvoudigen.

Waarschuwing

Vanaf 29 september 2023 wordt de officiële ondersteuning voor Spark 2.4 Runtimes stopgezet in Azure Synapse. Na 29 september 2023 behandelen we geen ondersteuningstickets met betrekking tot Spark 2.4. Er is geen release-pijplijn aanwezig voor bug- of beveiligingsoplossingen voor Spark 2.4. Het gebruik van Spark 2.4 na de datum waarop de ondersteuning wordt afgekapt, wordt op eigen risico uitgevoerd. We raden het gebruik ervan sterk af vanwege mogelijke beveiligings- en functionaliteitsproblemen.
Als onderdeel van het afschaffingsproces voor Apache Spark 2.4 willen we u laten weten dat AutoML in Azure Synapse Analytics ook wordt afgeschaft. Dit omvat zowel de interface met weinig code als de API's die worden gebruikt voor het maken van AutoML-proefversies via code.
Houd er rekening mee dat de AutoML-functionaliteit uitsluitend beschikbaar is via de Spark 2.4-runtime.
Voor klanten die gebruik willen blijven maken van AutoML-mogelijkheden, raden we u aan om uw gegevens op te slaan in uw ADLSg2-account (Azure Data Lake Storage Gen2). Van daaruit hebt u naadloos toegang tot de AutoML-ervaring via Azure Machine Learning (AzureML). Meer informatie over deze tijdelijke oplossing vindt u hier.

Azure AI-services

Azure AI-services bieden machine learning-mogelijkheden om algemene problemen op te lossen, zoals het analyseren van tekst voor emotioneel sentiment of het analyseren van afbeeldingen om objecten of gezichten te herkennen. U hebt geen speciale machine learning- of data science-kennis nodig om deze services te kunnen gebruiken. Een Cognitive Service biedt een deel van of alle onderdelen in een machine learning-oplossing: gegevens, algoritmen en getraind model. Deze services zijn bedoeld om algemene kennis over uw gegevens te vereisen zonder dat u ervaring nodig hebt met machine learning of data science. U kunt deze vooraf getrainde Azure AI-services automatisch gebruiken in Azure Synapse Analytics.

Volgende stappen

Dit artikel bevat een overzicht van de verschillende opties voor het trainen van machine learning-modellen in Apache Spark-pools in Azure Synapse Analytics. U vindt meer informatie over modeltraining door de onderstaande zelfstudie te volgen:

Geautomatiseerde ML-experimenten uitvoeren met behulp van Azure Machine Learning en Azure Synapse Analytics: Geautomatiseerde ML-zelfstudie
SparkML-experimenten uitvoeren: Apache SparkML-zelfstudie
De standaardbibliotheken weergeven: Azure Synapse Analytics-runtime