Machine learning-modellen trainen

Apache Spark in Azure Synapse Analytics biedt machine learning met big data de mogelijkheid om waardevolle inzichten te verkrijgen uit grote hoeveelheden gestructureerde, ongestructureerde en snel bewegende gegevens. Er zijn verschillende opties bij het trainen machine learning modellen met behulp van Azure Spark in Azure Synapse Analytics: Apache Spark MLlib, Azure Machine Learning en verschillende andere opensource-bibliotheken.

Apache SparkML en MLlib

Apache Spark in Azure Synapse Analytics is een van de implementaties van Apache Spark van Microsoft in de cloud. Het biedt een uniform, open-source framework voor parallelle gegevensverwerking dat ondersteuning biedt voor verwerking in het geheugen om de big data verbeteren. De Spark-verwerkingsen engine is gebouwd voor snelheid, gebruiksgemak en geavanceerde analyses. De gedistribueerde berekeningsmogelijkheden in het geheugen van Spark maken het een goede keuze voor de iteratieve algoritmen die worden gebruikt in machine learning en grafiekberekeningen.

Er zijn twee schaalbare machine learning die algoritmemodelmogelijkheden bieden aan deze gedistribueerde omgeving: MLlib en SparkML. MLlib bevat de oorspronkelijke API die boven op RDD's is gebouwd. SparkML is een nieuwer pakket dat een API op hoger niveau biedt die boven op DataFrames is gebouwd voor het ML pijplijnen. SparkML biedt nog geen ondersteuning voor alle functies van MLlib, maar vervangt MLlib als standaardbibliotheek machine learning Spark.

Notitie

In deze zelfstudie vindt u meer informatie over het maken van eenSparkML-model.

Elke Apache Spark pool in Azure Synapse Analytics wordt geleverd met een set vooraf geladen en populaire machine learning bibliotheken. Deze bibliotheken bieden herbruikbare code die u mogelijk wilt opnemen in uw programma's of projecten. Enkele van de relevante machine learning bibliotheken die standaard zijn opgenomen, zijn:

  • Scikit-learn is een van de populairste bibliotheken met één knooppunt machine learning klassieke ML algoritmen. Scikit-learn ondersteunt het merendeel van de leeralgoritmen onder en zonder supervisie en kan ook worden gebruikt voor gegevensanalyse en gegevensanalyse.

  • XGBoost is een populaire machine learning bibliotheek die geoptimaliseerde algoritmen bevat voor het trainen van beslissings- en willekeurige forests.

  • PyTorchTensorflow zijn krachtige Deep Learning-bibliotheken voor Python. Binnen een Apache Spark-pool in Azure Synapse Analytics kunt u deze bibliotheken gebruiken om modellen met één machine te bouwen door het aantal uitvoerders in uw pool in te stellen op nul. Hoewel Apache Spark niet functioneel is onder deze configuratie, is het een eenvoudige en rendabele manier om modellen met één machine te maken.

Meer informatie over de beschikbare bibliotheken en gerelateerde versies vindt u in de gepubliceerde Azure Synapse Analytics runtime.

MMLSpark

De Microsoft Machine Learning-bibliotheek voor Apache Spark is MMLSpark. Deze bibliotheek is ontworpen om gegevenswetenschappers productiever te maken op Spark, de experimentsnelheid te verhogen en geavanceerde machine learning-technieken, waaronder deep learning, te gebruiken voor grote gegevenssets.

MMLSpark biedt een laag boven op de API's op laag niveau van SparkML bij het bouwen van schaalbare ML-modellen, zoals het indexeren van tekenreeksen, het coerceren van gegevens in een indeling die wordt verwacht door machine learning-algoritmen en het samenstellen van functievectoren. De MMLSpark-bibliotheek vereenvoudigt deze en andere veelvoorkomende taken voor het bouwen van modellen in PySpark.

Automatische ML in Azure Machine Learning

Azure Machine Learning is een cloudomgeving die u kunt gebruiken voor het trainen, implementeren, automatiseren, beheren en volgen van machine learning-modellen. Geautomatiseerde ML in Azure Machine Learning accepteert trainingsgegevens en configuratie-instellingen en doorloop automatisch combinaties van verschillende methoden voor functienormalisatie/standaardisatie, modellen en hyperparameters om bij het beste model te komen.

Wanneer u geautomatiseerde ML binnen Azure Synapse Analytics, kunt u gebruikmaken van de diepe integratie tussen de verschillende services om de training van het & verificatiemodel te vereenvoudigen.

Notitie

In deze zelfstudie vindt u meer informatie Azure Machine Learning automatisch ML maken van een experiment.

Azure Cognitive Services

Azure Cognitive Services biedt machine learning om algemene problemen op te lossen, zoals het analyseren van tekst op emotionele gevoelens of het analyseren van afbeeldingen om objecten of gezichten te herkennen. U hebt geen speciale machine learning- of data science-kennis nodig om deze services te kunnen gebruiken. Een Cognitive Service biedt een deel van of alle onderdelen in een machine learning oplossing: gegevens, algoritme en getraind model. Deze services zijn bedoeld om algemene kennis over uw gegevens te vereisen zonder ervaring met machine learning of gegevenswetenschap. U kunt deze vooraf getrainde Cognitive Services automatisch gebruiken binnen Azure Synapse Analytics.

Volgende stappen

Dit artikel bevat een overzicht van de verschillende opties voor het trainen machine learning modellen binnen Apache Spark pools in Azure Synapse Analytics. Volg de onderstaande zelfstudie voor meer informatie over modeltraining: