Wat is ML-Services in Azure HDInsightWhat is ML Services in Azure HDInsight

Microsoft Machine Learning Server is beschikbaar als een implementatie-opties wanneer u een HDInsight-clusters in Azure maken.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Het clustertype waarmee u deze optie wordt aangeroepen ML-Services.The cluster type that provides this option is called ML Services. Deze mogelijkheid biedt gegevenswetenschappers, statistici en R-programmeurs on-demandtoegang tot schaalbare, gedistribueerde analysemethoden in HDInsight.This capability provides data scientists, statisticians, and R programmers with on-demand access to scalable, distributed methods of analytics on HDInsight.

ML-Services op HDInsight biedt de nieuwste mogelijkheden voor analyses op basis van R op gegevenssets van vrijwel elke grootte, geladen in Azure Blob of Data Lake-opslag.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size, loaded to either Azure Blob or Data Lake storage. Omdat het cluster ML-Services is gebouwd op open-source R, de toepassingen op basis van R die u bouwt gebruik kunnen maken van de 8000 + open source R-pakketten.Since ML Services cluster is built on open-source R, the R-based applications you build can leverage any of the 8000+ open-source R packages. De routines in ScaleR van Microsoft big data analytics-pakket zijn ook beschikbaar.The routines in ScaleR, Microsoft’s big data analytics package are also available.

Het edge-knooppunt van een cluster biedt een handige locatie verbinding maken met het cluster en uw R-scripts uit te voeren.The edge node of a cluster provides a convenient place to connect to the cluster and to run your R scripts. Met een edge-knooppunt hebt u de mogelijkheid van het uitvoeren van de functies voor geparallelliseerde gedistribueerde van ScaleR over de kernen van het edge-knooppunt-server.With an edge node, you have the option of running the parallelized distributed functions of ScaleR across the cores of the edge node server. U kunt ze ook uitvoeren op de knooppunten van het cluster met behulp van de ScaleR Hadoop Mapreduce of Apache Spark-compute-context.You can also run them across the nodes of the cluster by using ScaleR’s Hadoop Map Reduce or Apache Spark compute contexts.

De modellen of voorspellingen op die het resultaat van de analyse kunnen worden gedownload voor on-premises gebruik.The models or predictions that result from analysis can be downloaded for on-premises use. Ze kunnen ook operationaliseren elders in Azure, met name via Azure Machine Learning Studio webservice.They can also be operationalized elsewhere in Azure, in particular through Azure Machine Learning Studio web service.

Aan de slag met ML-Services op HDInsightGet started with ML Services on HDInsight

Voor het maken van een ML-Services-cluster in Azure HDInsight, selecteer de ML-Services clustertype bij het maken van een HDInsight-cluster met behulp van de Azure portal.To create an ML Services cluster in Azure HDInsight, select the ML Services cluster type when creating an HDInsight cluster using the Azure portal. Het clustertype van de ML-Services bevat ML-Server op de gegevensknooppunten van het cluster en een edge-knooppunt, dat als een zone landingspagina voor analyses op basis van een ML-Services fungeert.The ML Services cluster type includes ML Server on the data nodes of the cluster and on an edge node, which serves as a landing zone for ML Services-based analytics. Zie aan de slag met ML-Services op HDInsight voor een overzicht over het maken van het cluster.See Getting Started with ML Services on HDInsight for a walkthrough on how to create the cluster.

Waarom kiezen voor ML-Services in HDInsight?Why choose ML Services in HDInsight?

ML-Services in HDInsight biedt de volgende voordelen:ML Services in HDInsight provides the following benefits:

AI-innovaties van Microsoft als open sourceAI innovation from Microsoft and open-source

ML-Services bevat een zeer schaalbare, gedistribueerde set algoritmen zoals RevoscaleR, revoscalepy, en microsoftML die kan worden gebruikt voor gegevens die groter zijn dan de de grootte van fysiek geheugen en wordt uitgevoerd op een groot aantal verschillende platformen in een gedistribueerde manier.ML Services includes highly scalable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML that can work on data sizes larger than the size of physical memory, and run on a wide variety of platforms in a distributed manner. Meer informatie over het verzamelen van Microsoft's aangepaste R-pakketten en Python-pakketten opgenomen met het product.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

ML-Services brug vormt tussen deze Microsoft-innovaties en bijdragen die afkomstig zijn van de open-source-community (R, Python en AI-toolkits) alle boven op een enkele eersteklas platform.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits) all on top of a single enterprise-grade platform. Een pakket R of Python, open-source machine learning kunt werken samen met eventuele bedrijfsspecifieke innovatie van Microsoft.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Eenvoudige, veilige en uiterst schaalbare uitoefening en beheerSimple, secure, and high-scale operationalization and administration

Ondernemingen die afhankelijk zijn van traditionele paradigma's en omgevingen investeren veel tijd en moeite voor uitoefening.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Dit resulteert in hoge kosten en vertragingen met inbegrip van de tijd van de vertaling voor modellen, iteraties zodat ze kunnen blijven geldig en goedkeuring van de huidige, regelgeving en beheren van machtigingen via uitoefening.This results in inflated costs and delays including the translation time for models, iterations to keep them valid and current, regulatory approval, and managing permissions through operationalization.

ML-Services biedt geavanceerde uitoefening, in dat wanneer een machine learning-model is voltooid, duurt het slechts een paar klikken voor het genereren van webservices API's.ML Services offers enterprise grade operationalization, in that, after a machine learning model is completed, it takes just a few clicks to generate web services APIs. Deze webservices worden gehost op een server raster in de cloud en kan worden geïntegreerd met line-of-business-toepassingen.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. De mogelijkheid om te implementeren in een elastische grid kunt u probleemloos schalen met de behoeften van uw bedrijf, zowel voor batch- en realtime scoren.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Zie voor instructies ML-Services operationeel maken in HDInsight.For instructions, see Operationalize ML Services on HDInsight.

Belangrijke functies van ML-Services op HDInsightKey features of ML Services on HDInsight

De volgende functies zijn opgenomen in ML-Services op HDInsight.The following features are included in ML Services on HDInsight.

Functie-categorieFeature category DescriptionDescription
R-enabledR-enabled R-pakketten voor oplossingen die zijn geschreven in R, met een open-source-distributie van R- en runtime-infrastructuur voor het uitvoeren van script.R packages for solutions written in R, with an open source distribution of R, and run-time infrastructure for script execution.
Python-ingeschakeldPython-enabled Python-modules voor oplossingen die zijn geschreven in Python, met een open-source-verdeling van Python en runtime-infrastructuur voor het uitvoeren van script.Python modules for solutions written in Python, with an open source distribution of Python, and run-time infrastructure for script execution.
Vooraf getrainde modellenPre-trained models Voor visuele analyse en tekstsentimentanalyse, klaar om gegevens te beoordelen u bieden.For visual analysis and text sentiment analysis, ready to score data you provide.
Implementeren en gebruikenDeploy and consume Operationeel maken van uw server en -oplossingen implementeren als een webservice.Operationalize your server and deploy solutions as a web service.
Uitvoering op afstandRemote execution Externe sessies op de cluster ML-Services in uw netwerk vanaf uw clientwerkstation starten.Start remote sessions on ML Services cluster on your network from your client workstation.

Opties voor gegevensopslag voor ML-Services op HDInsightData storage options for ML Services on HDInsight

Standaardopslag voor het HDFS-bestandssysteem van HDInsight-clusters kan worden gekoppeld aan een Azure Storage-account of een Azure Data Lake-opslag.Default storage for the HDFS file system of HDInsight clusters can be associated with either an Azure Storage account or an Azure Data Lake Storage. Deze koppeling zorgt ervoor dat de gewenste gegevens is geüpload naar het cluster opslag tijdens de analyse persistent wordt gemaakt en de gegevens zijn beschikbaar, zelfs nadat het cluster wordt verwijderd.This association ensures that whatever data is uploaded to the cluster storage during analysis is made persistent and the data is available even after the cluster is deleted. Er zijn verschillende hulpprogramma's voor het verwerken van de gegevensoverdracht naar de opslagoptie die u selecteert, met inbegrip van de faciliteit portal op basis van het uploaden van het opslagaccount en de AzCopy hulpprogramma.There are various tools for handling the data transfer to the storage option that you select, including the portal-based upload facility of the storage account and the AzCopy utility.

U hebt de mogelijkheid van het inschakelen van toegang tot extra Blob en Data lake opgeslagen tijdens het inrichtingsproces, ongeacht de primaire opslag-optie gebruikt cluster.You have the option of enabling access to additional Blob and Data lake stores during the cluster provisioning process regardless of the primary storage option in use. Zie aan de slag met ML-Services op HDInsight voor informatie over het toevoegen van toegang tot extra accounts.See Getting started with ML Services on HDInsight for information on adding access to additional accounts. Zie Azure Storage-opties voor ML-Services op HDInsight artikel voor meer informatie over het gebruik van meerdere opslagaccounts.See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

U kunt ook Azure Files als een opslagoptie voor gebruik op het edge-knooppunt.You can also use Azure Files as a storage option for use on the edge node. Azure Files kunt u een bestandsshare die is gemaakt in Azure Storage op het Linux-bestandssysteem koppelen.Azure Files enables you to mount a file share that was created in Azure Storage to the Linux file system. Zie voor meer informatie over deze opties voor gegevensopslag voor ML-Services op HDInsight-cluster, Azure Storage-opties voor ML-Services op HDInsight.For more information about these data storage options for ML Services on HDInsight cluster, see Azure Storage options for ML Services on HDInsight.

Toegang tot Services ML edge-knooppuntAccess ML Services edge node

U kunt verbinding maken met Microsoft ML Server op het edge-knooppunt via een browser.You can connect to Microsoft ML Server on the edge node using a browser. Dit is standaard geïnstalleerd tijdens het maken van clusters.It is installed by default during cluster creation. Zie voor meer informatie, stared ophalen met ML-Services op HDInsight.For more information, see Get stared with ML Services on HDInsight. U kunt ook verbinding maken met het edge-knooppunt van het cluster vanaf de opdrachtregel met behulp van SSH/PuTTY voor toegang tot de R-console.You can also connect to the cluster edge node from the command line by using SSH/PuTTY to access the R console.

Ontwikkelen en uitvoeren van R-scriptsDevelop and run R scripts

De R-scripts u maken en uitvoeren kunnen u elk van de 8000 + open source R-pakketten naast de geparallelliseerde en gedistribueerde routines in de bibliotheek ScaleR.The R scripts you create and run can use any of the 8000+ open-source R packages in addition to the parallelized and distributed routines available in the ScaleR library. Een script dat wordt uitgevoerd met ML-Services op het edge-knooppunt wordt in het algemeen uitgevoerd binnen de R-interpreter op dat knooppunt.In general, a script that is run with ML Services on the edge node runs within the R interpreter on that node. De uitzonderingen zijn de stappen die nodig hebt om aan te roepen een ScaleR-functie met een compute-context is ingesteld op Hadoop Mapreduce (RxHadoopMR) of Spark (RxSpark).The exceptions are those steps that need to call a ScaleR function with a compute context that is set to Hadoop Map Reduce (RxHadoopMR) or Spark (RxSpark). De functie wordt in dit geval wordt uitgevoerd in een gedistribueerde gestart op deze (taak)-gegevensknooppunten van het cluster die gekoppeld aan de gegevens waarnaar wordt verwezen zijn.In this case, the function runs in a distributed fashion across those data (task) nodes of the cluster that are associated with the data referenced. Zie voor meer informatie over de opties voor andere compute-context, Compute-context, opties voor ML-Services op HDInsight.For more information about the different compute context options, see Compute context options for ML Services on HDInsight.

Een model operationeel makenOperationalize a model

Wanneer de gegevensmodellering voltooid is, kunt u het model voorspellingen voor nieuwe gegevens vanuit Azure of on-premises uitvoeren.When your data modeling is complete, you can operationalize the model to make predictions for new data either from Azure or on-premises. Dit proces staat bekend als scoren.This process is known as scoring. Score kan worden gedaan in HDInsight, Azure Machine Learning of on-premises.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

Score in HDInsightScore in HDInsight

Als u wilt beoordelen in HDInsight, een R-functie waarmee het model om voorspellingen voor een nieuw gegevensbestand die u hebt geladen naar uw opslagaccount te maken wordt aangeroepen te schrijven.To score in HDInsight, write an R function that calls your model to make predictions for a new data file that you've loaded to your storage account. Sla de voorspellingen vervolgens terug naar het opslagaccount.Then, save the predictions back to the storage account. U kunt deze routine on-demand uitvoeren op het edge-knooppunt van het cluster of met behulp van een geplande taak.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Score in Azure Machine Learning (AML)Score in Azure Machine Learning (AML)

Voor het scoren met Azure Machine Learning, gebruikt u het open-source Azure Machine Learning, R-pakket genoemd AzureML voor het publiceren van uw modellen vervolgens als een Azure-web-service.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. Dit pakket is voor het gemak vooraf worden geïnstalleerd op het edge-knooppunt.For convenience, this package is pre-installed on the edge node. Vervolgens de faciliteiten in Azure Machine Learning gebruiken om te maken van een gebruikersinterface voor de webservice en roep vervolgens de web-service zo nodig voor het scoren.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring.

Als u deze optie kiest, moet u alle modelobjecten ScaleR converteren naar gelijkwaardige open-source-modelobjecten voor gebruik met de webservice.If you choose this option, you must convert any ScaleR model objects to equivalent open-source model objects for use with the web service. Gebruik functies voor ScaleR-afdwingen, zoals as.randomForest() voor ensembles op basis van modellen, voor deze conversie.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Score on-premisesScore on-premises

Voor het scoren van on-premises na het maken van uw model, kunt u serialiseren van het model in R, downloaden, de serialisatie van het en vervolgens worden gebruikt voor het scoren van nieuwe gegevens.To score on-premises after creating your model, you can serialize the model in R, download it, de-serialize it, and then use it for scoring new data. Beoordeling van nieuwe gegevens kunt u met behulp van de eerder beschreven in aanpak Score in HDInsight of met behulp van webservices.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

Het cluster beherenMaintain the cluster

Installeren en onderhouden van R-pakkettenInstall and maintain R packages

De meeste van de R-pakketten die u gebruikt zijn vereist op het edge-knooppunt sinds de meeste stappen voor uw R-scripts die er worden uitgevoerd.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Voor het installeren van extra R-pakketten op het edge-knooppunt, kunt u de install.packages() methode in R.To install additional R packages on the edge node, you can use the install.packages() method in R.

Als u alleen van routines uit de ScaleR-bibliotheek in het cluster gebruikmaakt, hoeft niet normaal gesproken u extra R-pakketten installeren op de gegevensknooppunten.If you are just using routines from the ScaleR library across the cluster, you do not usually need to install additional R packages on the data nodes. U moet echter extra pakketten voor de ondersteuning van het gebruik van rxExec of RxDataStep kan worden uitgevoerd op de gegevensknooppunten.However, you might need additional packages to support the use of rxExec or RxDataStep execution on the data nodes.

In dergelijke gevallen kunnen de extra pakketten met een scriptactie worden geïnstalleerd nadat u het cluster hebt gemaakt.In such cases, the additional packages can be installed with a script action after you create the cluster. Zie voor meer informatie, ML-Services beheren in HDInsight-cluster.For more information, see Manage ML Services in HDInsight cluster.

Apache Hadoop MapReduce-geheugeninstellingen wijzigenChange Apache Hadoop MapReduce memory settings

Een cluster kan worden gewijzigd als u wilt wijzigen van de hoeveelheid geheugen die voor ML-Services beschikbaar is wanneer deze een MapReduce-taak wordt uitgevoerd.A cluster can be modified to change the amount of memory that is available to ML Services when it is running a MapReduce job. Voor het wijzigen van een cluster, gebruikt u de Apache Ambari-Webinterface die is beschikbaar via de blade in Azure portal voor uw cluster.To modify a cluster, use the Apache Ambari UI that's available through the Azure portal blade for your cluster. Zie voor instructies over hoe u toegang tot de Ambari UI voor uw cluster beheren HDInsight-clusters met behulp van de Ambari-Webgebruikersinterface.For instructions about how to access the Ambari UI for your cluster, see Manage HDInsight clusters using the Ambari Web UI.

Het is ook mogelijk om te wijzigen van de hoeveelheid geheugen die beschikbaar is voor ML-Services met behulp van Hadoop-switches in de aanroep naar RxHadoopMR als volgt:It is also possible to change the amount of memory that is available to ML Services by using Hadoop switches in the call to RxHadoopMR as follows:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"  

Een cluster schalenScale your cluster

Een bestaand cluster ML-Services op HDInsight kan omhoog of omlaag worden geschaald via de portal.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. Door omhoog te schalen, kunt u de capaciteit die u nodig voor grotere verwerkingstaken hebt mogelijk toegang of u kunt weer een cluster schalen wanneer deze niet actief is.By scaling up, you can gain the additional capacity that you might need for larger processing tasks, or you can scale back a cluster when it is idle. Zie voor instructies over hoe u een cluster kunt schalen beheren HDInsight-clusters.For instructions about how to scale a cluster, see Manage HDInsight clusters.

Het systeem onderhoudenMaintain the system

Onderhoud toepassen van patches voor het besturingssysteem en andere updates wordt uitgevoerd op de onderliggende Linux-VM's in een HDInsight-cluster buiten kantooruren.Maintenance to apply OS patches and other updates is performed on the underlying Linux VMs in an HDInsight cluster during off-hours. Onderhoud wordt gewoonlijk gedaan om 03:30 uur (gebaseerd op de lokale tijd voor de virtuele machine) elke maandag en donderdag.Typically, maintenance is done at 3:30 AM (based on the local time for the VM) every Monday and Thursday. Updates worden zodanig dat ze niet van invloed zijn op meer dan een kwartaal van het cluster tegelijk uitgevoerd.Updates are performed in such a way that they don't impact more than a quarter of the cluster at a time.

Omdat de hoofdknooppunten redundante zijn en niet alle gegevensknooppunten worden beïnvloed, alle taken die worden uitgevoerd tijdens deze periode mogelijk vertragen.Since the head nodes are redundant and not all data nodes are impacted, any jobs that are running during this time might slow down. Ze moeten echter nog steeds uitgevoerd worden voltooid.However, they should still run to completion. Aangepaste software of lokale gegevens die u hebt behouden over deze onderhoudsgebeurtenissen voor, tenzij het een onherstelbare fout optreedt waarvoor het herbouwen van een cluster.Any custom software or local data that you have is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

IDE-opties voor ML-Services op HDInsightIDE options for ML Services on HDInsight

Het Linux-edge-knooppunt van een HDInsight-cluster is de zone van de landingspagina voor op basis van R-analyse.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. Recente versies van HDInsight bieden een standaardinstallatie van RStudio Server op het edge-knooppunt als een browser gebaseerde IDE.Recent versions of HDInsight provide a default installation of RStudio Server on the edge node as a browser-based IDE. Gebruik van RStudio Server als een IDE voor de ontwikkeling en uitvoering van R-scripts kunnen productief zijn aanzienlijk meer dan alleen met behulp van de R-console.Use of RStudio Server as an IDE for the development and execution of R scripts can be considerably more productive than just using the R console.

Bovendien kunt u een bureaublad-IDE installeren en deze gebruiken voor toegang tot het cluster door gebruik te maken van een externe MapReduce of Spark compute-context.Additionally, you can install a desktop IDE and use it to access the cluster through use of a remote MapReduce or Spark compute context. Opties zijn onder andere Microsoft R Tools voor Visual Studio (RTVS), RStudio, en Walware's op basis van Eclipse StatET.Options include Microsoft’s R Tools for Visual Studio (RTVS), RStudio, and Walware’s Eclipse-based StatET.

Bovendien kunt u de R-console op het edge-knooppunt openen door te typen R achter de opdrachtprompt Linux na het maken van een verbinding via SSH of PuTTY.Additionally, you can access the R console on the edge node by typing R at the Linux command prompt after connecting via SSH or PuTTY. Wanneer u de console-interface gebruikt, is het handig is dat een teksteditor voor het ontwikkelen van R-script uitvoeren in een ander venster en knippen en plakken van secties van het script in de R-console naar behoefte.When using the console interface, it is convenient to run a text editor for R script development in another window, and cut and paste sections of your script into the R console as needed.

PrijzenPricing

De prijzen die gekoppeld aan een cluster met HDInsight voor ML-Services zijn zijn op dezelfde manier gestructureerd op de prijzen voor andere typen van HDInsight-cluster.The prices that are associated with an ML Services HDInsight cluster are structured similarly to the prices for other HDInsight cluster types. Ze zijn gebaseerd op de grootte van de onderliggende virtuele machines in de naam, de gegevens en het edge-knooppunten, met de toevoeging van een kern-uur slechts iets hoger ligt.They are based on the sizing of the underlying VMs across the name, data, and edge nodes, with the addition of a core-hour uplift. Zie voor meer informatie, HDInsight prijzen.For more information, see HDInsight pricing.

Volgende stappenNext steps

Zie de volgende onderwerpen voor meer informatie over het gebruik van ML-Services op HDInsight-clusters:To learn more about how to use ML Services on HDInsight clusters, see the following topics: