Mi az az Azure HDInsight a ML-szolgáltatások?What is ML Services in Azure HDInsight

A Microsoft Machine Learning Server központi telepítési lehetőségként érhető el, amikor HDInsight-fürtöket hoz létre az Azure-ban.Microsoft Machine Learning Server is available as a deployment option when you create HDInsight clusters in Azure. Az ezt a lehetőséget biztosító fürt típusának neve ml szolgáltatás.The cluster type that provides this option is called ML Services. Ez a képesség igény szerinti hozzáférést biztosít a HDInsight-alapú elemzések adaptálható és elosztott módszereihez.This capability provides on-demand access to adaptable, distributed methods of analytics on HDInsight.

A HDInsight ML-szolgáltatásai az R-alapú elemzések legújabb képességeit biztosítják szinte bármilyen méretű adatkészletekben.ML Services on HDInsight provides the latest capabilities for R-based analytics on datasets of virtually any size. Az adatkészletek betölthetők az Azure Blobba vagy a Data Lake Storage szolgáltatásba.The datasets can be loaded to either Azure Blob or Data Lake storage. Az R-alapú alkalmazások a 8000 + nyílt forráskódú R-csomagokat használhatják.Your R-based applications can use the 8000+ open-source R packages. A skálázás, a Microsoft big data Analytics-csomagjának rutinja is elérhető.The routines in ScaleR, Microsoft's big data analytics package are also available.

A peremhálózati csomópont kényelmes helyet biztosít a fürthöz való kapcsolódáshoz és az R-parancsfájlok futtatásához.The edge node provides a convenient place to connect to the cluster and run your R scripts. A peremhálózati csomópont lehetővé teszi a skálázás párhuzamosan elosztott funkcióinak futtatását a kiszolgáló magjai között.The edge node allows running the ScaleR parallelized distributed functions across the cores of the server. Azokat a fürt csomópontjain is futtathatja, ha a méretezőt a Hadoop Térkép használatával csökkenti.You can also run them across the nodes of the cluster by using ScaleR's Hadoop Map Reduce. Apache Spark számítási környezeteket is használhat.You can also use Apache Spark compute contexts.

Az elemzésből eredő modellek vagy előrejelzések a helyszíni használatra tölthetők le.The models or predictions that result from analysis can be downloaded for on-premises use. Más is lehetnek operationalized Az Azure-ban.They can also be operationalized elsewhere in Azure. Különösen a Azure Machine learning Studio (klasszikus)és a Web Servicehasználatával.In particular, through Azure Machine Learning Studio (classic), and web service.

Ismerkedés a HDInsight által nyújtott ML-szolgáltatásokkalGet started with ML Services on HDInsight

Ha egy ML Services-fürtöt szeretne létrehozni a HDInsight-ben, válassza ki a ml Services -fürt típusát.To create an ML Services cluster in HDInsight, select the ML Services cluster type. A ML-szolgáltatások fürtjének típusa ML Servert tartalmaz az adatcsomópontokon és a peremhálózati csomóponton.The ML Services cluster type includes ML Server on the data nodes, and edge node. A peremhálózati csomópont kilépési zónaként szolgál a ML-szolgáltatások alapú elemzésekhez.The edge node serves as a landing zone for ML Services-based analytics. A fürt létrehozásával kapcsolatos útmutatásért lásd: Apache Hadoop-fürtök létrehozása a Azure Portal használatával .See Create Apache Hadoop clusters using the Azure portal for a walkthrough on how to create the cluster.

Miért érdemes a ML-szolgáltatásokat választani a HDInsight-ben?Why choose ML Services in HDInsight?

A HDInsight ML-szolgáltatásai a következő előnyöket biztosítják:ML Services in HDInsight provides the following benefits:

A Microsoft és a nyílt forráskódú AI-innovációAI innovation from Microsoft and open-source

A ML-szolgáltatások a jól alkalmazható, elosztott algoritmusokat, például a RevoscaleR, a Revoscalepy csomagjaiés a microsoftML-készletet foglalják magukban.ML Services includes highly adaptable, distributed set of algorithms such as RevoscaleR, revoscalepy, and microsoftML. Ezek az algoritmusok a fizikai memória méreténél nagyobb adatméreteken működhetnek.These algorithms can work on data sizes larger than the size of physical memory. Emellett számos platformon futnak, és elosztott módon működnek.They also run on a wide variety of platforms in a distributed manner. További információ a Microsoft egyéni R-csomagjainak és a termékben található Python-csomagok gyűjteményéről.Learn more about the collection of Microsoft's custom R packages and Python packages included with the product.

A ML-szolgáltatások a nyílt forráskódú Közösségtől (R, Python és AI eszközkészlet) érkező Microsoft-innovációkat és-hozzájárulásokat hidak.ML Services bridges these Microsoft innovations and contributions coming from the open-source community (R, Python, and AI toolkits). Egyetlen nagyvállalati szintű platformon.All on top of a single enterprise-grade platform. Bármely R vagy Python nyílt forráskódú gépi tanulási csomag a Microsoft tulajdonában lévő bármilyen üzleti innovációval párhuzamosan működhet.Any R or Python open-source machine learning package can work side by side with any proprietary innovation from Microsoft.

Egyszerű, biztonságos és nagy léptékű operacionalizálási és felügyeletSimple, secure, and high-scale operationalization and administration

A hagyományos paradigmák és környezetek révén a vállalatok sok időt és erőfeszítést fektetnek a operacionalizálási irányába.Enterprises relying on traditional paradigms and environments invest much time and effort towards operationalization. Ezzel a művelettel a költségek és a késések is megmaradnak, beleértve a fordítási időt is: modellek, iterációk, hogy érvényes és aktuális, szabályozási jóváhagyást és kezelési engedélyeket őrizzenek meg.This action results in inflated costs and delays including the translation time for: models, iterations to keep them valid and current, regulatory approval, and managing permissions.

A ML-szolgáltatások nagyvállalati szintű operacionalizálásibiztosítanak.ML Services offers enterprise grade operationalization. A gépi tanulási modell befejeződése után mindössze néhány kattintással létrehozhatja a webszolgáltatási API-kat.After a machine learning model completes, it takes just a few clicks to generate web services APIs. Ezek a webszolgáltatások a felhőben egy kiszolgálói rácson futnak, és az üzletági alkalmazásokkal is integrálhatók.These web services are hosted on a server grid in the cloud and can be integrated with line-of-business applications. A rugalmas rácsra való üzembe helyezés lehetősége lehetővé teszi, hogy zökkenőmentesen méretezhető legyen az üzleti igényeknek megfelelően, a Batch és a valós idejű pontozás esetében is.The ability to deploy to an elastic grid lets you scale seamlessly with the needs of your business, both for batch and real-time scoring. Útmutatásért lásd: MŰKÖDŐVÉ tenni ml szolgáltatások a HDInsight-on.For instructions, see Operationalize ML Services on HDInsight.

Megjegyzés

A HDInsight-ben a ML-szolgáltatások fürtjének típusa csak a 3,6-es HDInsight támogatott.The ML Services cluster type on HDInsight is supported only on HDInsight 3.6. A HDInsight 3,6 a 2020. december 31-én való kivonásra van ütemezve.HDInsight 3.6 is scheduled to retire on December 31, 2020.

A HDInsight által nyújtott ML-szolgáltatások főbb jellemzőiKey features of ML Services on HDInsight

A következő szolgáltatások a HDInsight ML-szolgáltatásaiban szerepelnek.The following features are included in ML Services on HDInsight.

Szolgáltatás kategóriájaFeature category DescriptionDescription
R-enabledR-enabled R- csomagok az r-ben írt megoldásokhoz, az r nyílt forráskódú eloszlásával és futásidejű infrastruktúrával a parancsfájlok futtatásához.R packages for solutions written in R, with an open-source distribution of R, and run-time infrastructure for script execution.
Python – engedélyezvePython-enabled Python- modulok a Pythonban írt megoldásokhoz, a Python és a futásidejű infrastruktúra nyílt forráskódú eloszlásával a parancsfájlok futtatásához.Python modules for solutions written in Python, with an open-source distribution of Python, and run-time infrastructure for script execution.
Előre betanított modellekPre-trained models A vizuális elemzéshez és a szöveg hangulatának elemzéséhez, amely készen áll az Ön által megadott adatgyűjtésre.For visual analysis and text sentiment analysis, ready to score data you provide.
Üzembe helyezés és használatDeploy and consume Operationalize a kiszolgáló és a megoldások webszolgáltatásként való üzembe helyezése.Operationalize your server and deploy solutions as a web service.
Távoli végrehajtásRemote execution Indítsa el a távoli munkameneteket a hálózaton található ML Services-fürtön az ügyfél munkaállomásán.Start remote sessions on ML Services cluster on your network from your client workstation.

Adattárolási lehetőségek a HDInsight ML-szolgáltatásaihozData storage options for ML Services on HDInsight

A HDFS fájlrendszer alapértelmezett tárolója lehet Azure Storage-fiók vagy Azure Data Lake Storage.Default storage for the HDFS file system can be an Azure Storage account or Azure Data Lake Storage. Az elemzés során a rendszer feltöltötte az adattárakat a fürtbe.Uploaded data to cluster storage during analysis is made persistent. Az adatkészletek még a fürt törlése után is elérhetők.The data is available even after the cluster is deleted. A különböző eszközök kezelhetik az adatátvitelt a tárolóba.Various tools can handle the data transfer to storage. Az eszközök közé tartozik a Storage-fiók és a AzCopy segédprogram portálon alapuló feltöltési létesítménye.The tools include the portal-based upload facility of the storage account and the AzCopy utility.

A fürt létrehozása során engedélyezheti a további blob-és adattárakhoz való hozzáférést is.You can enable access to additional Blob and Data lake stores during cluster creation. Nincs korlátozva a használatban lévő elsődleges tárterület beállítás.You aren't limited by the primary storage option in use. A több Storage-fiók használatával kapcsolatos további információkért lásd: Az Azure Storage lehetőségei a HDINSIGHT ml-szolgáltatásaihoz .See Azure Storage options for ML Services on HDInsight article to learn more about using multiple storage accounts.

A peremhálózati csomóponton a Azure Files tárolási lehetőségként is használhatja.You can also use Azure Files as a storage option for use on the edge node. Azure Files lehetővé teszi az Azure Storage-ban létrehozott fájlmegosztás használatát a Linux fájlrendszerben.Azure Files enables file shares created in Azure Storage to the Linux file system. További információkért lásd: Az Azure Storage lehetőségei a HDInsight-on található ml-szolgáltatásokhoz.For more information, see Azure Storage options for ML Services on HDInsight.

A ML-szolgáltatások peremhálózati csomópontjának eléréseAccess ML Services edge node

A peremhálózati csomóponton böngésző vagy SSH/Putty használatával kapcsolódhat a Microsoft ML Serverhoz.You can connect to Microsoft ML Server on the edge node using a browser, or SSH/PuTTY. Az R-konzol alapértelmezés szerint telepítve van a fürt létrehozásakor.The R console is installed by default during cluster creation.

R-parancsfájlok fejlesztése és futtatásaDevelop and run R scripts

Az R-szkriptek a 8000-es és a nyílt forráskódú R-csomagok bármelyikét használhatják.Your R scripts can use any of the 8000+ open-source R packages. A párhuzamos és elosztott rutinokat a skálázhatósági könyvtárból is használhatja.You can also use the parallelized and distributed routines from the ScaleR library. Az Edge-csomóponton futó parancsfájlok az R-tolmácson belül futnak a csomóponton.Scripts run on the edge node run within the R interpreter on that node. A skálázási függvényeket a Térkép csökkentése (RxHadoopMR) vagy a Spark (RxSpark) számítási környezet által meghívó lépések kivételével.Except for steps that call ScaleR functions with a Map Reduce (RxHadoopMR) or Spark (RxSpark) compute context. A függvények elosztott módon futnak az adatokhoz társított adatcsomópontok között.The functions run in a distributed fashion across the data nodes that are associated with the data. A környezeti beállításokkal kapcsolatos további információkért lásd: számítási környezeti beállítások a HDInsight tartozó ml-szolgáltatásokhoz.For more information about context options, see Compute context options for ML Services on HDInsight.

Operationalize egy modellOperationalize a model

Az adatmodellezés befejezése után operationalize Az Azure-ból vagy a helyszíni környezetből származó új adatokra vonatkozó előrejelzéseket készíthet.When your data modeling is complete, operationalize the model to make predictions for new data either from Azure or on-premises. Ez a folyamat pontozásként ismert.This process is known as scoring. A pontozás a HDInsight, Azure Machine Learning és a helyszínen is elvégezhető.Scoring can be done in HDInsight, Azure Machine Learning, or on-premises.

Pontszám a HDInsightScore in HDInsight

A HDInsight való kiértékeléséhez írjon egy R-függvényt.To score in HDInsight, write an R function. A függvény meghívja a modellt, hogy előrejelzéseket készítsen egy új, a Storage-fiókba betöltött adatfájlra vonatkozóan.The function calls your model to make predictions for a new data file that you've loaded to your storage account. Ezután mentse vissza a jóslatokat a Storage-fiókba.Then, save the predictions back to the storage account. Ezt a rutin igény szerint futtathatja a fürt peremhálózati csomópontján vagy egy ütemezett feladaton keresztül.You can run this routine on-demand on the edge node of your cluster or by using a scheduled job.

Pontszám Azure Machine Learning (pénzmosás)Score in Azure Machine Learning (AML)

A Azure Machine Learning használatának értékeléséhez használja a AzureML néven ismert nyílt forráskódú Azure Machine learning R-csomagot a modell Azure-webszolgáltatásként való közzétételéhez.To score using Azure Machine Learning, use the open-source Azure Machine Learning R package known as AzureML to publish your model as an Azure web service. A kényelem érdekében ez a csomag előre telepítve van a peremhálózati csomóponton.For convenience, this package is pre-installed on the edge node. Ezután használja a Azure Machine Learning található létesítményeket a webszolgáltatás felhasználói felületének létrehozásához, majd a pontozáshoz szükség szerint hívja meg a webszolgáltatást.Next, use the facilities in Azure Machine Learning to create a user interface for the web service, and then call the web service as needed for scoring. Ezután alakítsa át a skálázási modell objektumait egyenértékű, nyílt forráskódú modell-objektumokra a webszolgáltatással való használatra.Then convert ScaleR model objects to equivalent open-source model objects for use with the web service. Ehhez az átalakításhoz használjon skálázhatósági kényszerítési funkciókat, például as.randomForest() az Ensemble-alapú modellekhez.Use ScaleR coercion functions, such as as.randomForest() for ensemble-based models, for this conversion.

Helyszíni pontozásScore on-premises

Ha a modellt a modell létrehozása után szeretné felhasználni: szerializálja a modellt az R-ben, töltse le, deszerializálja, majd használja az új adatgyűjtéshez.To score on-premises after creating your model: serialize the model in R, download it, de-serialize it, then use it for scoring new data. Az új adatforrások a HDInsight vagy a webszolgáltatásokhasználatával a pontszámban korábban ismertetett módszer használatával adhatók meg.You can score new data by using the approach described earlier in Score in HDInsight or by using web services.

A fürt karbantartásaMaintain the cluster

R-csomagok telepítése és karbantartásaInstall and maintain R packages

Az r-csomagok többsége szükséges a peremhálózati csomóponton, mivel az R-szkriptek legtöbb lépése ott fut.Most of the R packages that you use are required on the edge node since most steps of your R scripts run there. Ha további R-csomagokat szeretne telepíteni a peremhálózati csomóponton, használhatja az install.packages() r metódust.To install additional R packages on the edge node, you can use the install.packages() method in R.

Ha csak a skálázási függvénytár-rutinokat használja, általában nincs szükség további R-csomagokra.If you're just using ScaleR library routines, you don't usually need additional R packages. Előfordulhat, hogy további csomagok szükségesek a rxExec vagy a RxDataStep végrehajtásához az adatcsomópontokon.You might need additional packages for rxExec or RxDataStep execution on the data nodes.

A további csomagok a fürt létrehozása után parancsfájl-művelettel is telepíthetők.The additional packages can be installed with a script action after you create the cluster. További információ: a ml-szolgáltatások kezelése a HDInsight-fürtben.For more information, see Manage ML Services in HDInsight cluster.

Apache Hadoop MapReduce módosításaChange Apache Hadoop MapReduce memory settings

A MapReduce-feladatok futtatásakor a rendelkezésre álló memória és a ML szolgáltatások is módosíthatók.Available memory to ML Services can be modified when it's running a MapReduce job. Fürt módosításához használja az Apache Ambari felhasználói felületét a fürthöz.To modify a cluster, use the Apache Ambari UI for your cluster. A Ambari felhasználói felületével kapcsolatos utasításokért lásd: HDInsight-fürtök kezelése a Ambari webes felhasználói felületén.For Ambari UI instructions, see Manage HDInsight clusters using the Ambari Web UI.

A rendelkezésre álló memória ML-szolgáltatásokhoz a Hadoop kapcsolók használatával módosítható a RxHadoopMR-hívásban:Available memory to ML Services can be changed by using Hadoop switches in the call to RxHadoopMR:

hadoopSwitches = "-libjars /etc/hadoop/conf -Dmapred.job.map.memory.mb=6656"

A fürt méretezéseScale your cluster

A HDInsight lévő meglévő ML-szolgáltatások fürtje a portálon felfelé vagy lefelé is méretezhető.An existing ML Services cluster on HDInsight can be scaled up or down through the portal. A vertikális felskálázásával további kapacitást szerezhet a nagyobb feldolgozási feladatokhoz.By scaling up, you gain additional capacity for larger processing tasks. A fürtöket a tétlen állapotba állíthatja vissza.You can scale back a cluster when it's idle. A fürtök méretezésével kapcsolatos utasításokért lásd: HDInsight-fürtök kezelése.For instructions about how to scale a cluster, see Manage HDInsight clusters.

A szolgáltatás karbantartásaMaintain the system

Az operációs rendszer karbantartását az alapul szolgáló Linux rendszerű virtuális gépeken végezheti egy HDInsight-fürtön, munkaidőn kívül.OS Maintenance is done on the underlying Linux VMs in an HDInsight cluster during off-hours. A karbantartást jellemzően a 3:30 ÓRAKOR (a virtuális gép helyi ideje szerint) végzik, minden hétfőn és csütörtökön.Typically, maintenance is done at 3:30 AM (VM's local time) every Monday and Thursday. A frissítések nem befolyásolják egyszerre a fürt egynegyedét.Updates don't impact more than a quarter of the cluster at a time.

Előfordulhat, hogy a futó feladatok lelassulnak a karbantartás során.Running jobs might slow down during maintenance. Azonban a befejezéshez továbbra is futniuk kell.However, they should still run to completion. Minden olyan egyéni szoftver-vagy helyi adatbázis, amelyet a karbantartási események megőrzik, kivéve, ha a fürt újraépítését igénylő katasztrofális hiba történik.Any custom software or local data that you've is preserved across these maintenance events unless a catastrophic failure occurs that requires a cluster rebuild.

IDE-beállítások a HDInsight ML-szolgáltatásaihozIDE options for ML Services on HDInsight

A HDInsight-fürt Linux Edge csomópontja az R-alapú elemzések kirakodási zónája.The Linux edge node of an HDInsight cluster is the landing zone for R-based analysis. A HDInsight legújabb verziói a RStudio-kiszolgáló böngésző alapú IDE-verzióját biztosítják a peremhálózati csomóponton.Recent versions of HDInsight provide a browser-based IDE of RStudio Server on the edge node. A RStudio-kiszolgáló termelékenyebb, mint az R-konzol fejlesztése és végrehajtása.RStudio Server is more productive than the R console for development and execution.

Egy asztali IDE távoli MapReduce vagy Spark számítási környezeten keresztül érheti el a fürtöt.A desktop IDE can access the cluster through a remote MapReduce or Spark compute context. A lehetőségek a következők: a Microsoft R Tools for Visual Studio (RTVS), a RStudio és a Walware Eclipse-alapú StatET.Options include: Microsoft's R Tools for Visual Studio (RTVS), RStudio, and Walware's Eclipse-based StatET.

Nyissa meg az R-konzolt a peremhálózati csomóponton úgy, hogy beírja az r parancsot a parancssorba.Access the R console on the edge node by typing R at the command prompt. A konzol felületének használata esetén célszerű R-szkriptet kialakítani egy szövegszerkesztőben.When using the console interface, it's convenient to develop R script in a text editor. Ezután szükség szerint vágja ki és illessze be a szkript részét az R-konzolra.Then cut and paste sections of your script into the R console as needed.

DíjszabásPricing

A ML-szolgáltatások HDInsight-fürtjéhez társított díjak a többi HDInsight hasonlóan vannak strukturálva.The prices associated with an ML Services HDInsight cluster are structured similarly to other HDInsight cluster types. Ezek a mögöttes virtuális gépek méretén alapulnak a név, az adat és a peremhálózati csomópontok között.They're based on the sizing of the underlying VMs across the name, data, and edge nodes. A Core-Hour felemelkedést is.Core-hour uplifts as well. További információ: HDInsight díjszabása.For more information, see HDInsight pricing.

Következő lépésekNext steps

Ha többet szeretne megtudni a HDInsight-fürtökön található ML-szolgáltatások használatáról, tekintse meg a következő cikkeket:To learn more about how to use ML Services on HDInsight clusters, see the following articles: